Fugu-MT 論文翻訳(概要): Code Smells for Machine Learning Applications

論文の概要: Code Smells for Machine Learning Applications

arxiv url: http://arxiv.org/abs/2203.13746v1
Date: Fri, 25 Mar 2022 16:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 14:11:12.808910
Title: Code Smells for Machine Learning Applications
Title（参考訳）: 機械学習アプリケーションのためのCode Smells
Authors: Haiyin Zhang, Lu\'is Cruz, Arie van Deursen
Abstract要約: 機械学習アプリケーションにはコード品質に関するガイドラインが欠けている。本稿では,さまざまなソースから収集された22種類の機械学習固有のコードの臭いを抽出し,識別する。それぞれの匂いを、その状況、長期にわたる潜在的な問題、そして提案された解決策の説明で特定する。
参考スコア（独自算出の注目度）: 6.759291241573661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The popularity of machine learning has wildly expanded in recent years. Machine learning techniques have been heatedly studied in academia and applied in the industry to create business value. However, there is a lack of guidelines for code quality in machine learning applications. In particular, code smells have rarely been studied in this domain. Although machine learning code is usually integrated as a small part of an overarching system, it usually plays an important role in its core functionality. Hence ensuring code quality is quintessential to avoid issues in the long run. This paper proposes and identifies a list of 22 machine learning-specific code smells collected from various sources, including papers, grey literature, GitHub commits, and Stack Overflow posts. We pinpoint each smell with a description of its context, potential issues in the long run, and proposed solutions. In addition, we link them to their respective pipeline stage and the evidence from both academic and grey literature. The code smell catalog helps data scientists and developers produce and maintain high-quality machine learning application code.
Abstract（参考訳）: 近年、機械学習の人気が高まっている。機械学習技術は学界で熱く研究され、ビジネス価値を生み出すために業界で応用されている。しかし、機械学習アプリケーションではコード品質に関するガイドラインが欠落している。特に、この領域ではコードの臭いはめったに研究されていない。機械学習のコードは、通常、オーバーアーキシングシステムの小さな部分として統合されるが、通常は、コア機能において重要な役割を果たす。したがって、長期的に問題を避けるためには、コード品質の確保が不可欠である。本稿では,論文,灰色文献,githubコミット,stack overflowポストなど,さまざまなソースから収集された22の機械学習特有のコードの臭いのリストを提案し,同定する。それぞれの臭いを、そのコンテキスト、長期的な潜在的な問題、そして提案されたソリューションの説明で特定します。さらに,これらをそれぞれのパイプラインステージと,学術文献とグレイ文学の両方から得られた証拠にリンクする。 code smell catalogは、データサイエンティストや開発者が高品質の機械学習アプリケーションコードを作成し、維持するのに役立つ。

関連論文リスト

SACS: A Code Smell Dataset using Semi-automatic Generation Approach [7.718926822172738]
コードの臭いはソフトウェアにおいて大きな課題であり、遅延設計や実装上の欠陥を示している。機械学習技術を適用する上で最大の課題のひとつは、高品質なコードの臭いデータセットがないことだ。本研究では,高品質なデータサンプルを用いたコード臭いデータセットを生成するための半自動手法について検討する。
論文参考訳（メタデータ） (2026-02-17T04:15:22Z)
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
COFO: COdeFOrces dataset for Program Classification, Recognition and Tagging [0.0]
COFOは809のクラス/アウトプットからなるデータセットで、C、C++、Java、Pythonで書かれた合計369Kのソースコードを持つ。このデータセットは、プログラム分類/プロブレム、タグ付け、プログラム特性の予測、コード理解といった機械学習ベースの問題を解決するのに有用であると考えています。
論文参考訳（メタデータ） (2025-03-24T00:29:43Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文参考訳（メタデータ） (2023-12-30T17:48:37Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文参考訳（メタデータ） (2023-03-02T08:25:42Z)
Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文参考訳（メタデータ） (2023-01-05T23:17:17Z)
PyKale: Knowledge-Aware Machine Learning from Multiple Sources in Python [6.276936701568444]
Pykaleは、グラフ、画像、テキスト、ビデオに関する知識を意識した機械学習のためのPythonライブラリである。我々は、標準的なソフトウェアエンジニアリングプラクティスに基づいて、新しいグリーン機械学習ガイドラインを定式化する。私たちはPyTorch上にPyKaleを構築し、リッチなPyTorchエコシステムを活用しています。
論文参考訳（メタデータ） (2021-06-17T18:35:37Z)
Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。ディープラーニングは、独自の機械学習のサブフィールドになっている。生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文参考訳（メタデータ） (2021-05-29T21:02:44Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。 74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文参考訳（メタデータ） (2021-03-06T16:01:54Z)
Smoke Testing for Machine Learning: Simple Tests to Discover Severe Defects [7.081604594416339]
我々は、基本的な関数がクラッシュすることなく実行できると主張するのに使用できる、汎用的で単純な煙テストを決定することを試みる。テストした3つの機械学習ライブラリすべてにバグがあり、3つのライブラリのうち2つに深刻なバグがありました。
論文参考訳（メタデータ） (2020-09-03T08:54:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。