Fugu-MT 論文翻訳(概要): From Code Changes to Quality Gains: An Empirical Study in Python ML Systems with PyQu

論文の概要: From Code Changes to Quality Gains: An Empirical Study in Python ML Systems with PyQu

arxiv url: http://arxiv.org/abs/2511.02827v1
Date: Tue, 04 Nov 2025 18:55:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 18:47:06.159954
Title: From Code Changes to Quality Gains: An Empirical Study in Python ML Systems with PyQu
Title（参考訳）: コード変更から品質向上へ:Python MLシステムにおけるPyQuを用いた実証的研究
Authors: Mohamed Almukhtar, Anwar Ghammam, Marouane Kessentini, Hua Ming,
Abstract要約: PyQuは、平均F1スコアの0.84と0.85の精度、精度、リコールで品質向上のコミットを識別する新しいツールである。 41%が新たに発見され,現在最先端のPython変更検出ツールでは確認されていない。
参考スコア（独自算出の注目度）: 1.5259434915412646
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In an era shaped by Generative Artificial Intelligence for code generation and the rising adoption of Python-based Machine Learning systems (MLS), software quality has emerged as a major concern. As these systems grow in complexity and importance, a key obstacle lies in understanding exactly how specific code changes affect overall quality-a shortfall aggravated by the lack of quality assessment tools and a clear mapping between ML systems code changes and their quality effects. Although prior work has explored code changes in MLS, it mostly stops at what the changes are, leaving a gap in our knowledge of the relationship between code changes and the MLS quality. To address this gap, we conducted a large-scale empirical study of 3,340 open-source Python ML projects, encompassing more than 3.7 million commits and 2.7 trillion lines of code. We introduce PyQu, a novel tool that leverages low level software metrics to identify quality-enhancing commits with an average accuracy, precision, and recall of 0.84 and 0.85 of average F1 score. Using PyQu and a thematic analysis, we identified 61 code changes, each demonstrating a direct impact on enhancing software quality, and we classified them into 13 categories based on contextual characteristics. 41% of the changes are newly discovered by our study and have not been identified by state-of-the-art Python changes detection tools. Our work offers a vital foundation for researchers, practitioners, educators, and tool developers, advancing the quest for automated quality assessment and best practices in Python-based ML software.
Abstract（参考訳）: コード生成のためのジェネレーティブ人工知能と、Pythonベースの機械学習システム(MLS)の採用が増加している時代において、ソフトウェアの品質が大きな関心事となっている。これらのシステムが複雑さと重要性を増すにつれて、特定のコードの変更が全体的な品質にどのように影響するかを正確に理解することが大きな障害になります。以前の作業では、MLSのコード変更を探索していましたが、ほとんどの場合、変更の内容が停止し、コード変更とMLSの品質の関係に関する知識のギャップが残っています。このギャップに対処するため、我々は3,340のオープンソースのPython MLプロジェクトに関する大規模な実証的研究を行い、370万以上のコミットと2.7兆行のコードを含むことができた。 PyQuは、低レベルのソフトウェアメトリクスを利用して、平均的精度、精度、リコールで、平均的なF1スコアの0.84と0.85の品質向上コミットを識別する新しいツールである。 PyQuとテーマ分析を用いて61のコード変更を同定し,それぞれがソフトウェアの品質向上に直接的な影響を示すとともに,文脈特性に基づいて13のカテゴリに分類した。 41%が新たに発見され,現在最先端のPython変更検出ツールでは確認されていない。私たちの仕事は、研究者、実践家、教育者、ツール開発者にとって重要な基盤を提供し、PythonベースのMLソフトウェアにおける自動品質評価とベストプラクティスの探求を進めています。

関連論文リスト

Analysing Python Machine Learning Notebooks with Moose [0.12249546377051435]
機械学習(ML)コードは、特にノートブック内では、従来のソフトウェアに比べて品質が低いことが多い。悪いプラクティスは、一般的なPythonコーディング規約、ノートブック自体の組織構造、API利用のようなML固有の側面の3つの異なるレベルに現れます。本稿では,Moose上に構築されたマルチレベル機能を備えた静的解析ツールであるVespucci Linterを紹介する。
論文参考訳（メタデータ） (2025-09-15T09:59:49Z)
PyExamine A Comprehensive, UnOpinionated Smell Detection Tool for Python [5.669063174637433]
PyExamineは、コードの臭いを検出するアプローチであり、複数のレベルの分析で機能する。メトリクスは、高レベルのアーキテクチャ上の懸念から実装の詳細まで、あらゆるレベルのコード組織にまたがっています。 PyExamineは検出精度を91.4%、構造臭89.3%、建築臭80.6%と達成した。
論文参考訳（メタデータ） (2025-01-30T13:14:14Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Towards Understanding the Impact of Code Modifications on Software Quality Metrics [1.2277343096128712]
本研究の目的は、コード修正がソフトウェアの品質指標に与える影響を評価し、解釈することである。基礎となる仮説は、ソフトウェア品質のメトリクスに類似した変更を誘発するコード修正は、異なるクラスタにグループ化できる、というものである。結果は、コード修正の異なるクラスタを明らかにし、それぞれに簡潔な記述が伴い、ソフトウェアの品質指標に対する全体的な影響を明らかにした。
論文参考訳（メタデータ） (2024-04-05T08:41:18Z)
Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文参考訳（メタデータ） (2022-06-24T14:20:34Z)
Uncertainty Quantification 360: A Holistic Toolkit for Quantifying and Communicating the Uncertainty of AI [49.64037266892634]
我々は、AIモデルの不確実性定量化のためのオープンソースのPythonツールキットUncertainty Quantification 360 (UQ360)について述べる。このツールキットの目標は2つある: ひとつは、AIアプリケーション開発ライフサイクルにおける不確実性を定量化し、評価し、改善し、伝達する共通のプラクティスを育むとともに、合理化するための幅広い能力を提供すること、もうひとつは、信頼できるAIの他の柱とのUQの接続をさらに探求することである。
論文参考訳（メタデータ） (2021-06-02T18:29:04Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。