論文の概要: Bug Characterization in Machine Learning-based Systems
- arxiv url: http://arxiv.org/abs/2307.14512v1
- Date: Wed, 26 Jul 2023 21:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 16:28:37.646459
- Title: Bug Characterization in Machine Learning-based Systems
- Title(参考訳): 機械学習システムにおけるバグキャラクタリゼーション
- Authors: Mohammad Mehdi Morovati, Amin Nikanjam, Florian Tambon, Foutse Khomh,
Zhen Ming (Jack) Jiang
- Abstract要約: 本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
- 参考スコア(独自算出の注目度): 15.521925194920893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid growth of applying Machine Learning (ML) in different domains,
especially in safety-critical areas, increases the need for reliable ML
components, i.e., a software component operating based on ML. Understanding the
bugs characteristics and maintenance challenges in ML-based systems can help
developers of these systems to identify where to focus maintenance and testing
efforts, by giving insights into the most error-prone components, most common
bugs, etc. In this paper, we investigate the characteristics of bugs in
ML-based software systems and the difference between ML and non-ML bugs from
the maintenance viewpoint. We extracted 447,948 GitHub repositories that used
one of the three most popular ML frameworks, i.e., TensorFlow, Keras, and
PyTorch. After multiple filtering steps, we select the top 300 repositories
with the highest number of closed issues. We manually investigate the extracted
repositories to exclude non-ML-based systems. Our investigation involved a
manual inspection of 386 sampled reported issues in the identified ML-based
systems to indicate whether they affect ML components or not. Our analysis
shows that nearly half of the real issues reported in ML-based systems are ML
bugs, indicating that ML components are more error-prone than non-ML
components. Next, we thoroughly examined 109 identified ML bugs to identify
their root causes, symptoms, and calculate their required fixing time. The
results also revealed that ML bugs have significantly different characteristics
compared to non-ML bugs, in terms of the complexity of bug-fixing (number of
commits, changed files, and changed lines of code). Based on our results,
fixing ML bugs are more costly and ML components are more error-prone, compared
to non-ML bugs and non-ML components respectively. Hence, paying a significant
attention to the reliability of the ML components is crucial in ML-based
systems.
- Abstract(参考訳): 機械学習(ML)を異なる分野、特に安全クリティカル領域に適用する急速な成長により、信頼性の高いMLコンポーネント、すなわちMLに基づいたソフトウェアコンポーネントの必要性が高まっている。
mlベースのシステムにおけるバグの特徴とメンテナンスの課題を理解することで、これらのシステムの開発者は、最もエラーが発生しやすいコンポーネント、最も一般的なバグなどに関する洞察を提供することで、メンテナンスとテストの作業の場所を特定することができる。
本稿では,MLベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
私たちは、TensorFlow、Keras、PyTorchという3つの最も人気のあるMLフレームワークの1つを使用した447,948のGitHubリポジトリを抽出しました。
複数のフィルタリングステップを行った後、最もクローズドイシューの多い上位300リポジトリを選択します。
抽出したレポジトリを手作業で調べ,非MLシステムを排除する。
本調査では,ML コンポーネントに影響を及ぼすか否かを示すため,特定ML ベースシステムで報告された386 項目を手動で検査した。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
次に109個のMLバグを特定し,その根本原因,症状を同定し,必要な固定時間を算出した。
その結果、MLバグは、バグ修正の複雑さ(コミット数、ファイルの変更、コード行の変更)の観点から、非MLバグとは大きく異なる特徴を持つことが明らかになった。
結果から、ML以外のバグや非MLコンポーネントと比較して、MLコンポーネントの修正はコストがかかり、エラーが発生しやすい。
したがって、MLベースのシステムでは、MLコンポーネントの信頼性に大きな注意を払うことが不可欠である。
関連論文リスト
- When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in
ML-enabled Systems [13.718420553401662]
本研究の目的は、ML特有のコードの臭いとして知られる、特定の品質関連関心事の出現と進化を調査することである。
具体的には、実際のML対応システムにおいて、ML特有のコードの臭いを経験的に分析して研究する計画を提案する。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
論文 参考訳(メタデータ) (2024-03-13T07:43:45Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules [52.973832863842546]
本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
論文 参考訳(メタデータ) (2023-05-23T12:21:38Z) - Understanding the Complexity and Its Impact on Testing in ML-Enabled
Systems [8.630445165405606]
世界中の企業で広く採用されている産業対話システムであるRasa 3.0について検討する。
私たちのゴールは、このような大規模なML対応システムの複雑さを特徴づけ、テストにおける複雑さの影響を理解することです。
本研究は,ML対応システムにおけるソフトウェア工学の実践的意義を明らかにする。
論文 参考訳(メタデータ) (2023-01-10T08:13:24Z) - Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文 参考訳(メタデータ) (2022-09-20T18:12:12Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - Characterizing and Detecting Mismatch in Machine-Learning-Enabled
Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。
本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文 参考訳(メタデータ) (2021-03-25T19:40:29Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。