論文の概要: Bugs in Machine Learning-based Systems: A Faultload Benchmark
- arxiv url: http://arxiv.org/abs/2206.12311v1
- Date: Fri, 24 Jun 2022 14:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:57:42.987699
- Title: Bugs in Machine Learning-based Systems: A Faultload Benchmark
- Title(参考訳): 機械学習に基づくシステムのバグ: faultloadベンチマーク
- Authors: Mohammad Mehdi Morovati, Amin Nikanjam, Foutse Khomh, Zhen Ming (Jack)
Jiang
- Abstract要約: パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
- 参考スコア(独自算出の注目度): 16.956588187947993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid escalation of applying Machine Learning (ML) in various domains has
led to paying more attention to the quality of ML components. There is then a
growth of techniques and tools aiming at improving the quality of ML components
and integrating them into the ML-based system safely. Although most of these
tools use bugs' lifecycle, there is no standard benchmark of bugs to assess
their performance, compare them and discuss their advantages and weaknesses. In
this study, we firstly investigate the reproducibility and verifiability of the
bugs in ML-based systems and show the most important factors in each one. Then,
we explore the challenges of generating a benchmark of bugs in ML-based
software systems and provide a bug benchmark namely defect4ML that satisfies
all criteria of standard benchmark, i.e. relevance, reproducibility, fairness,
verifiability, and usability. This faultload benchmark contains 113 bugs
reported by ML developers on GitHub and Stack Overflow, using two of the most
popular ML frameworks: TensorFlow and Keras. defect4ML also addresses important
challenges in Software Reliability Engineering of ML-based software systems,
like: 1) fast changes in frameworks, by providing various bugs for different
versions of frameworks, 2) code portability, by delivering similar bugs in
different ML frameworks, 3) bug reproducibility, by providing fully
reproducible bugs with complete information about required dependencies and
data, and 4) lack of detailed information on bugs, by presenting links to the
bugs' origins. defect4ML can be of interest to ML-based systems practitioners
and researchers to assess their testing tools and techniques.
- Abstract(参考訳): 機械学習(ML)をさまざまな領域に適用する急速なエスカレーションにより、MLコンポーネントの品質により多くの注意を払っている。
そして、MLコンポーネントの品質を改善し、MLベースのシステムに安全に統合することを目的とした技術とツールが成長している。
これらのツールのほとんどはバグのライフサイクルを使っているが、パフォーマンスを評価し、比較し、その利点と弱点について議論するための標準ベンチマークはない。
本研究ではまず,MLベースのシステムにおけるバグの再現性と検証可能性について検討し,各システムにおいて最も重要な要因を示す。
次に、MLベースのソフトウェアシステムのバグのベンチマークを作成する際の課題について検討し、標準ベンチマークのすべての基準を満たすバグベンチマーク、すなわち、妥当性、再現性、公正性、妥当性、ユーザビリティを提供する。
この障害負荷ベンチマークには、GitHubとStack OverflowでML開発者が報告した113のバグが含まれている。
defect4MLはまた、MLベースのソフトウェアシステムのソフトウェア信頼性エンジニアリングにおける重要な課題にも対処している。
1)フレームワークのさまざまなバージョンに対するさまざまなバグを提供することによる、フレームワークの迅速な変更。
2) さまざまなMLフレームワークで同様のバグを提供することで、コードのポータビリティが向上する。
3) 必要な依存関係とデータに関する完全な情報を備えた完全な再現可能なバグを提供することによる,バグ再現性
4) バグの起源へのリンクを提示することで、バグに関する詳細な情報がない。
defect4MLは、MLベースのシステム実践者や研究者がテストツールやテクニックを評価することに関心がある。
関連論文リスト
- DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Bug Characterization in Machine Learning-based Systems [15.521925194920893]
本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
論文 参考訳(メタデータ) (2023-07-26T21:21:02Z) - An Empirical Study of Bugs in Quantum Machine Learning Frameworks [5.868747298750261]
人気の高い9つのQMLフレームワークの22のオープンソースリポジトリから収集された391の実際のバグを調査した。
バグの28%は、誤ったユニタリ行列の実装など、量子固有である。
われわれはQMLプラットフォームで5つの症状と9つの根本原因の分類を手作業で抽出した。
論文 参考訳(メタデータ) (2023-06-10T07:26:34Z) - Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文 参考訳(メタデータ) (2022-09-20T18:12:12Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Characterizing and Detecting Mismatch in Machine-Learning-Enabled
Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。
本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文 参考訳(メタデータ) (2021-03-25T19:40:29Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。