Fugu-MT 論文翻訳(概要): A Systematic Survey on Debugging Techniques for Machine Learning Systems

論文の概要: A Systematic Survey on Debugging Techniques for Machine Learning Systems

arxiv url: http://arxiv.org/abs/2503.03158v1
Date: Wed, 05 Mar 2025 03:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.775377
Title: A Systematic Survey on Debugging Techniques for Machine Learning Systems
Title（参考訳）: 機械学習システムのデバッグ技術に関するシステム調査
Authors: Thanh-Dat Nguyen, Haoye Tian, Bach Le, Patanamon Thongtanunam, Shane McIntosh,
Abstract要約: 機械学習(ML)ソフトウェアは、従来のソフトウェアと比較してユニークな課題を提起する。 MLシステムのテスト、診断、修復のための様々な方法が提案されている。しかし、開発者のニーズを満たす重要な研究方向を示す全体像はまだ公開されていない。
参考スコア（独自算出の注目度）: 5.747738795689893
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Debugging ML software (i.e., the detection, localization and fixing of faults) poses unique challenges compared to traditional software largely due to the probabilistic nature and heterogeneity of its development process. Various methods have been proposed for testing, diagnosing, and repairing ML systems. However, the big picture informing important research directions that really address the dire needs of developers is yet to unfold, leaving several key questions unaddressed: (1) What faults have been targeted in the ML debugging research that fulfill developers needs in practice? (2) How are these faults addressed? (3) What are the challenges in addressing the yet untargeted faults? In this paper, we conduct a systematic study of debugging techniques for machine learning systems. We first collect technical papers focusing on debugging components in machine learning software. We then map these papers to a taxonomy of faults to assess the current state of fault resolution identified in existing literature. Subsequently, we analyze which techniques are used to address specific faults based on the collected papers. This results in a comprehensive taxonomy that aligns faults with their corresponding debugging methods. Finally, we examine previously released transcripts of interviewing developers to identify the challenges in resolving unfixed faults. Our analysis reveals that only 48 percent of the identified ML debugging challenges have been explicitly addressed by researchers, while 46.9 percent remain unresolved or unmentioned. In real world applications, we found that 52.6 percent of issues reported on GitHub and 70.3% of problems discussed in interviews are still unaddressed by research in ML debugging. The study identifies 13 primary challenges in ML debugging, highlighting a significant gap between the identification of ML debugging issues and their resolution in practice.
Abstract（参考訳）: MLソフトウェア(すなわち、障害の検出、局所化、修正)のデバッグは、その開発プロセスの確率的性質と不均一性により、従来のソフトウェアと比較して、独特な課題を引き起こす。 MLシステムのテスト、診断、修復のための様々な方法が提案されている。しかし、開発者のニーズに本当に対処する重要な研究の方向性を示す全体像はまだ公開されておらず、いくつかの重要な疑問が未解決のまま残されている。 2) これらの欠陥はどのように対処されているか。 (3)未目標の障害に対処する上での課題は何か。本稿では,機械学習システムにおけるデバッグ手法の体系的研究を行う。まず、機械学習ソフトウェアにおけるコンポーネントのデバッグに焦点を当てた技術論文を収集します。そして、これらの論文を断層分類にマッピングし、既存の文献で確認されている断層分解の現在の状態を評価する。その後、収集した論文に基づいて、特定の障害に対処するためにどの手法が使用されるかを分析する。これにより、フォールトを対応するデバッグメソッドと整合させる包括的な分類が可能となる。最後に、未修正の障害を解決する上での課題を特定するために、以前リリースされた開発者へのインタビューの書き起こしについて検討する。我々の分析によると、特定されたMLデバッグの課題のうち、研究者によって明示的に対処されているのはわずか48%であり、46.9%は未解決または未解決のままである。現実のアプリケーションでは、GitHubで報告された問題の52.6%とインタビューで議論された問題の70.3%が、まだMLデバッグの研究によって未解決であることが判明した。この研究は、MLデバッグにおける13の主要な課題を特定し、MLデバッグ問題と実際の解決との間に大きなギャップがあることを強調している。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries [37.57398329330302]
大規模言語モデル(LLM)ライブラリは、今日のAI革命を支える基盤インフラストラクチャとして登場した。 LLMエコシステムにおけるそれらの重要な役割にもかかわらず、これらのライブラリは、それら上に構築されたAIシステムの信頼性を脅かすような、頻繁な品質の問題とバグに直面している。本稿では,近代LLMライブラリにおけるバグの特徴とテスト実践に関する総合的研究について紹介する。
論文参考訳（メタデータ） (2025-06-14T03:00:36Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation [2.2160604288512324]
ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。残念なことに、このようなコードスニペットはいくつかの未解決の課題のために常に問題を再現できなかった。
論文参考訳（メタデータ） (2024-07-13T22:55:35Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
Progressing from Anomaly Detection to Automated Log Labeling and Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文参考訳（メタデータ） (2023-12-22T15:04:20Z)
A Survey on Automated Software Vulnerability Detection Using Machine Learning and Deep Learning [19.163031235081565]
近年、ソースコードの脆弱性を検出する機械学習(ML)とディープラーニング(DL)ベースのモデルが提示されている。既存の研究のギャップを見つけることは困難であり、総合的な調査をせずに将来の改善の可能性を見出すのは難しいかもしれない。この作業は、ML/DLベースのソースコードレベルソフトウェア脆弱性検出アプローチの様々な特徴を特徴付けるための体系的な調査を提示することで、そのギャップに対処する。
論文参考訳（メタデータ） (2023-06-20T16:51:59Z)
On building machine learning pipelines for Android malware detection: a procedural survey of practices, challenges and opportunities [4.8460847676785175]
スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしている。提案されたアプローチのいくつかは高いパフォーマンスを達成するが、急速に進化するAndroidマルウェアは、時間とともにその正確性を維持することができない。
論文参考訳（メタデータ） (2023-06-12T13:52:28Z)
Revelio: ML-Generated Debugging Queries for Distributed Systems [0.0]
Revelioはユーザレポートとシステムログを入力として、開発者がバグの根本原因を見つけるために使用できるクエリを出力する。ディープニューラルネットワークを使用して、多様な入力ソースと潜在的クエリを高次元ベクトル空間に均一に埋め込む。私たちは、Revelioが予想されるトップ3関連クエリの96%に最も有用なクエリが含まれていることを示しています。
論文参考訳（メタデータ） (2021-06-28T00:23:21Z)
Understanding the Usability Challenges of Machine Learning In High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文参考訳（メタデータ） (2021-03-02T22:50:45Z)
Automatic Feasibility Study via Data Quality Analysis for ML: A Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文参考訳（メタデータ） (2020-10-16T14:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。