論文の概要: Code Smells for Machine Learning Applications
- arxiv url: http://arxiv.org/abs/2203.13746v1
- Date: Fri, 25 Mar 2022 16:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 14:11:12.808910
- Title: Code Smells for Machine Learning Applications
- Title(参考訳): 機械学習アプリケーションのためのCode Smells
- Authors: Haiyin Zhang, Lu\'is Cruz, Arie van Deursen
- Abstract要約: 機械学習アプリケーションにはコード品質に関するガイドラインが欠けている。
本稿では,さまざまなソースから収集された22種類の機械学習固有のコードの臭いを抽出し,識別する。
それぞれの匂いを、その状況、長期にわたる潜在的な問題、そして提案された解決策の説明で特定する。
- 参考スコア(独自算出の注目度): 6.759291241573661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popularity of machine learning has wildly expanded in recent years.
Machine learning techniques have been heatedly studied in academia and applied
in the industry to create business value. However, there is a lack of
guidelines for code quality in machine learning applications. In particular,
code smells have rarely been studied in this domain. Although machine learning
code is usually integrated as a small part of an overarching system, it usually
plays an important role in its core functionality. Hence ensuring code quality
is quintessential to avoid issues in the long run. This paper proposes and
identifies a list of 22 machine learning-specific code smells collected from
various sources, including papers, grey literature, GitHub commits, and Stack
Overflow posts. We pinpoint each smell with a description of its context,
potential issues in the long run, and proposed solutions. In addition, we link
them to their respective pipeline stage and the evidence from both academic and
grey literature. The code smell catalog helps data scientists and developers
produce and maintain high-quality machine learning application code.
- Abstract(参考訳): 近年、機械学習の人気が高まっている。
機械学習技術は学界で熱く研究され、ビジネス価値を生み出すために業界で応用されている。
しかし、機械学習アプリケーションではコード品質に関するガイドラインが欠落している。
特に、この領域ではコードの臭いはめったに研究されていない。
機械学習のコードは、通常、オーバーアーキシングシステムの小さな部分として統合されるが、通常は、コア機能において重要な役割を果たす。
したがって、長期的に問題を避けるためには、コード品質の確保が不可欠である。
本稿では,論文,灰色文献,githubコミット,stack overflowポストなど,さまざまなソースから収集された22の機械学習特有のコードの臭いのリストを提案し,同定する。
それぞれの臭いを、そのコンテキスト、長期的な潜在的な問題、そして提案されたソリューションの説明で特定します。
さらに,これらをそれぞれのパイプラインステージと,学術文献とグレイ文学の両方から得られた証拠にリンクする。
code smell catalogは、データサイエンティストや開発者が高品質の機械学習アプリケーションコードを作成し、維持するのに役立つ。
関連論文リスト
- RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。
本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-03-02T08:25:42Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - PyKale: Knowledge-Aware Machine Learning from Multiple Sources in Python [6.276936701568444]
Pykaleは、グラフ、画像、テキスト、ビデオに関する知識を意識した機械学習のためのPythonライブラリである。
我々は、標準的なソフトウェアエンジニアリングプラクティスに基づいて、新しいグリーン機械学習ガイドラインを定式化する。
私たちはPyTorch上にPyKaleを構築し、リッチなPyTorchエコシステムを活用しています。
論文 参考訳(メタデータ) (2021-06-17T18:35:37Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。
74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。
その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文 参考訳(メタデータ) (2021-03-06T16:01:54Z) - Smoke Testing for Machine Learning: Simple Tests to Discover Severe
Defects [7.081604594416339]
我々は、基本的な関数がクラッシュすることなく実行できると主張するのに使用できる、汎用的で単純な煙テストを決定することを試みる。
テストした3つの機械学習ライブラリすべてにバグがあり、3つのライブラリのうち2つに深刻なバグがありました。
論文 参考訳(メタデータ) (2020-09-03T08:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。