論文の概要: Comparing ML-Specific and General Python Code Smells Across Project Characteristics
- arxiv url: http://arxiv.org/abs/2606.01882v1
- Date: Mon, 01 Jun 2026 08:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.612511
- Title: Comparing ML-Specific and General Python Code Smells Across Project Characteristics
- Title(参考訳): ML-Specificと一般的なPythonのコードスメルを比較して、プロジェクト特性を横断する
- Authors: Halimeh Agh, Betül Cimendag, Stefan Wagner,
- Abstract要約: GitHub上の279のオープンソースプロジェクトにおいて、6つのプロジェクト機能(サイズ、年齢、コントリビュータ、コミット頻度、CI/CD採用、ドメイン)がML固有のコード品質と一般的なPythonコード品質の両方にどのように関係しているかを示します。
1) MLコードの臭いは一般的なPythonの匂いの41~94倍が少なく、(2) コミット頻度とドメインはML固有の品質に大きく関連しているのに対して、プロジェクトサイズ、チームサイズ、年齢、CI/CDの採用は技術的負債に関する従来の見解に挑戦するものではない。
- 参考スコア(独自算出の注目度): 1.9575587716413472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning systems consist of general-purpose code as well as machine-learning-specific code. While ML-specific code smells have been identified, their connection to project characteristics and their interaction with overall code quality are not well understood. Without this knowledge, quality assurance strategies remain one-size-fits-all, failing to account for the contextual factors that drive technical debt in ML systems. We present empirical evidence by examining how six project features (size, age, contributors, commit frequency, CI/CD adoption, and domain) relate to both ML-specific and general Python code quality in 279 open-source ML projects on GitHub. Using CodeSmile for ML code smells and Pylint for general Python smells, our results show: (1) ML code smells are 41-94 times less frequent than general Python smells; (2) commit frequency and domain are significantly associated with ML-specific quality, while project size, team size, age, and CI/CD adoption are not, challenging traditional views on technical debt; (3) general Python smells are not linked to any project characteristic, indicating systemic coding issues that are independent of project context; (4) domains that suffer most from ML-specific smells are not necessarily the same domains that suffer most from general Python smells, necessitating tailored quality strategies for each smell type. MLOps often involves configuration issues, Reinforcement Learning faces challenges with tensor manipulation, and Computer Vision encounters problems with GPU workflows. Overall, ML code quality depends on domain-specific practices and specialized CI/CD quality gates, as standard automation often overlooks domain-specific correctness problems.
- Abstract(参考訳): 機械学習システムは汎用コードと機械学習固有のコードで構成されている。
ML固有のコードの臭いは特定されているが、プロジェクトの特性と全体的なコード品質との相互作用はよく理解されていない。
この知識がなければ、品質保証戦略は相変わらず、MLシステムにおける技術的負債を駆動するコンテキスト要因を考慮できない。
GitHub上の279のオープンソースプロジェクトにおいて、6つのプロジェクト機能(サイズ、年齢、コントリビュータ、コミット頻度、CI/CD採用、ドメイン)がML固有のコード品質と一般的なPythonコード品質の両方にどのように関係しているかを検証することで、実証的な証拠を提示します。
1) MLコードの臭いは一般的なPythonの匂いの41~94倍が少なく、(2) コミット頻度とドメインはML特有のクオリティに大きく関連しているのに対し、プロジェクトのサイズ、チームサイズ、年齢、CI/CDの採用は技術的負債に関する従来の見解とは無関係である。
MLOpsは、しばしば構成上の問題、強化学習はテンソル操作の課題に直面し、Computer VisionはGPUワークフローの問題に遭遇する。
全般的に、MLコードの品質はドメイン固有のプラクティスやCI/CDの品質ゲートに依存します。
関連論文リスト
- CodeSpecBench: Benchmarking LLMs for Executable Behavioral Specification Generation [49.30536937161147]
本稿では,実行ベース評価プロトコルの下で実行可能な動作仕様生成のためのベンチマークであるCodeSpecBenchを紹介する。
CodeSpecBenchは関数レベルとリポジトリレベルのタスクの両方をサポートし、仕様を実行可能なPython関数としてエンコードする。
リポジトリレベルのタスクでは、最高のモデルが20.2%のパス率しか達成できないため、パフォーマンスが大幅に低下するのを観察します。
論文 参考訳(メタデータ) (2026-04-14T04:31:45Z) - From Code Changes to Quality Gains: An Empirical Study in Python ML Systems with PyQu [1.5259434915412646]
PyQuは、平均F1スコアの0.84と0.85の精度、精度、リコールで品質向上のコミットを識別する新しいツールである。
41%が新たに発見され,現在最先端のPython変更検出ツールでは確認されていない。
論文 参考訳(メタデータ) (2025-11-04T18:55:19Z) - Analysing Python Machine Learning Notebooks with Moose [0.12249546377051435]
機械学習(ML)コードは、特にノートブック内では、従来のソフトウェアに比べて品質が低いことが多い。
悪いプラクティスは、一般的なPythonコーディング規約、ノートブック自体の組織構造、API利用のようなML固有の側面の3つの異なるレベルに現れます。
本稿では,Moose上に構築されたマルチレベル機能を備えた静的解析ツールであるVespucci Linterを紹介する。
論文 参考訳(メタデータ) (2025-09-15T09:59:49Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Bug Characterization in Machine Learning-based Systems [15.521925194920893]
本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
論文 参考訳(メタデータ) (2023-07-26T21:21:02Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。
74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。
その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文 参考訳(メタデータ) (2021-03-06T16:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。