論文の概要: Bug Characterization in Machine Learning-based Systems
- arxiv url: http://arxiv.org/abs/2307.14512v1
- Date: Wed, 26 Jul 2023 21:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 16:28:37.646459
- Title: Bug Characterization in Machine Learning-based Systems
- Title(参考訳): 機械学習システムにおけるバグキャラクタリゼーション
- Authors: Mohammad Mehdi Morovati, Amin Nikanjam, Florian Tambon, Foutse Khomh,
Zhen Ming (Jack) Jiang
- Abstract要約: 本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
- 参考スコア(独自算出の注目度): 15.521925194920893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid growth of applying Machine Learning (ML) in different domains,
especially in safety-critical areas, increases the need for reliable ML
components, i.e., a software component operating based on ML. Understanding the
bugs characteristics and maintenance challenges in ML-based systems can help
developers of these systems to identify where to focus maintenance and testing
efforts, by giving insights into the most error-prone components, most common
bugs, etc. In this paper, we investigate the characteristics of bugs in
ML-based software systems and the difference between ML and non-ML bugs from
the maintenance viewpoint. We extracted 447,948 GitHub repositories that used
one of the three most popular ML frameworks, i.e., TensorFlow, Keras, and
PyTorch. After multiple filtering steps, we select the top 300 repositories
with the highest number of closed issues. We manually investigate the extracted
repositories to exclude non-ML-based systems. Our investigation involved a
manual inspection of 386 sampled reported issues in the identified ML-based
systems to indicate whether they affect ML components or not. Our analysis
shows that nearly half of the real issues reported in ML-based systems are ML
bugs, indicating that ML components are more error-prone than non-ML
components. Next, we thoroughly examined 109 identified ML bugs to identify
their root causes, symptoms, and calculate their required fixing time. The
results also revealed that ML bugs have significantly different characteristics
compared to non-ML bugs, in terms of the complexity of bug-fixing (number of
commits, changed files, and changed lines of code). Based on our results,
fixing ML bugs are more costly and ML components are more error-prone, compared
to non-ML bugs and non-ML components respectively. Hence, paying a significant
attention to the reliability of the ML components is crucial in ML-based
systems.
- Abstract(参考訳): 機械学習(ML)を異なる分野、特に安全クリティカル領域に適用する急速な成長により、信頼性の高いMLコンポーネント、すなわちMLに基づいたソフトウェアコンポーネントの必要性が高まっている。
mlベースのシステムにおけるバグの特徴とメンテナンスの課題を理解することで、これらのシステムの開発者は、最もエラーが発生しやすいコンポーネント、最も一般的なバグなどに関する洞察を提供することで、メンテナンスとテストの作業の場所を特定することができる。
本稿では,MLベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
私たちは、TensorFlow、Keras、PyTorchという3つの最も人気のあるMLフレームワークの1つを使用した447,948のGitHubリポジトリを抽出しました。
複数のフィルタリングステップを行った後、最もクローズドイシューの多い上位300リポジトリを選択します。
抽出したレポジトリを手作業で調べ,非MLシステムを排除する。
本調査では,ML コンポーネントに影響を及ぼすか否かを示すため,特定ML ベースシステムで報告された386 項目を手動で検査した。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
次に109個のMLバグを特定し,その根本原因,症状を同定し,必要な固定時間を算出した。
その結果、MLバグは、バグ修正の複雑さ(コミット数、ファイルの変更、コード行の変更)の観点から、非MLバグとは大きく異なる特徴を持つことが明らかになった。
結果から、ML以外のバグや非MLコンポーネントと比較して、MLコンポーネントの修正はコストがかかり、エラーが発生しやすい。
したがって、MLベースのシステムでは、MLコンポーネントの信頼性に大きな注意を払うことが不可欠である。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in
ML-enabled Systems [13.718420553401662]
本研究の目的は、ML特有のコードの臭いとして知られる、特定の品質関連関心事の出現と進化を調査することである。
具体的には、実際のML対応システムにおいて、ML特有のコードの臭いを経験的に分析して研究する計画を提案する。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
論文 参考訳(メタデータ) (2024-03-13T07:43:45Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - Understanding the Complexity and Its Impact on Testing in ML-Enabled
Systems [8.630445165405606]
世界中の企業で広く採用されている産業対話システムであるRasa 3.0について検討する。
私たちのゴールは、このような大規模なML対応システムの複雑さを特徴づけ、テストにおける複雑さの影響を理解することです。
本研究は,ML対応システムにおけるソフトウェア工学の実践的意義を明らかにする。
論文 参考訳(メタデータ) (2023-01-10T08:13:24Z) - Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文 参考訳(メタデータ) (2022-09-20T18:12:12Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - Characterizing and Detecting Mismatch in Machine-Learning-Enabled
Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。
本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文 参考訳(メタデータ) (2021-03-25T19:40:29Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。