Fugu-MT 論文翻訳(概要): Bugs in Machine Learning-based Systems: A Faultload Benchmark

論文の概要: Bugs in Machine Learning-based Systems: A Faultload Benchmark

arxiv url: http://arxiv.org/abs/2206.12311v1
Date: Fri, 24 Jun 2022 14:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-27 14:57:42.987699
Title: Bugs in Machine Learning-based Systems: A Faultload Benchmark
Title（参考訳）: 機械学習に基づくシステムのバグ: faultloadベンチマーク
Authors: Mohammad Mehdi Morovati, Amin Nikanjam, Foutse Khomh, Zhen Ming (Jack) Jiang
Abstract要約: パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
参考スコア（独自算出の注目度）: 16.956588187947993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid escalation of applying Machine Learning (ML) in various domains has led to paying more attention to the quality of ML components. There is then a growth of techniques and tools aiming at improving the quality of ML components and integrating them into the ML-based system safely. Although most of these tools use bugs' lifecycle, there is no standard benchmark of bugs to assess their performance, compare them and discuss their advantages and weaknesses. In this study, we firstly investigate the reproducibility and verifiability of the bugs in ML-based systems and show the most important factors in each one. Then, we explore the challenges of generating a benchmark of bugs in ML-based software systems and provide a bug benchmark namely defect4ML that satisfies all criteria of standard benchmark, i.e. relevance, reproducibility, fairness, verifiability, and usability. This faultload benchmark contains 113 bugs reported by ML developers on GitHub and Stack Overflow, using two of the most popular ML frameworks: TensorFlow and Keras. defect4ML also addresses important challenges in Software Reliability Engineering of ML-based software systems, like: 1) fast changes in frameworks, by providing various bugs for different versions of frameworks, 2) code portability, by delivering similar bugs in different ML frameworks, 3) bug reproducibility, by providing fully reproducible bugs with complete information about required dependencies and data, and 4) lack of detailed information on bugs, by presenting links to the bugs' origins. defect4ML can be of interest to ML-based systems practitioners and researchers to assess their testing tools and techniques.
Abstract（参考訳）: 機械学習(ML)をさまざまな領域に適用する急速なエスカレーションにより、MLコンポーネントの品質により多くの注意を払っている。そして、MLコンポーネントの品質を改善し、MLベースのシステムに安全に統合することを目的とした技術とツールが成長している。これらのツールのほとんどはバグのライフサイクルを使っているが、パフォーマンスを評価し、比較し、その利点と弱点について議論するための標準ベンチマークはない。本研究ではまず,MLベースのシステムにおけるバグの再現性と検証可能性について検討し,各システムにおいて最も重要な要因を示す。次に、MLベースのソフトウェアシステムのバグのベンチマークを作成する際の課題について検討し、標準ベンチマークのすべての基準を満たすバグベンチマーク、すなわち、妥当性、再現性、公正性、妥当性、ユーザビリティを提供する。この障害負荷ベンチマークには、GitHubとStack OverflowでML開発者が報告した113のバグが含まれている。 defect4MLはまた、MLベースのソフトウェアシステムのソフトウェア信頼性エンジニアリングにおける重要な課題にも対処している。 1)フレームワークのさまざまなバージョンに対するさまざまなバグを提供することによる、フレームワークの迅速な変更。 2) さまざまなMLフレームワークで同様のバグを提供することで、コードのポータビリティが向上する。 3) 必要な依存関係とデータに関する完全な情報を備えた完全な再現可能なバグを提供することによる,バグ再現性 4) バグの起源へのリンクを提示することで、バグに関する詳細な情報がない。 defect4MLは、MLベースのシステム実践者や研究者がテストツールやテクニックを評価することに関心がある。

関連論文リスト

Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。 1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文参考訳（メタデータ） (2025-03-13T05:58:41Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Bug Characterization in Machine Learning-based Systems [15.521925194920893]
本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
論文参考訳（メタデータ） (2023-07-26T21:21:02Z)
An Empirical Study of Bugs in Quantum Machine Learning Frameworks [5.868747298750261]
人気の高い9つのQMLフレームワークの22のオープンソースリポジトリから収集された391の実際のバグを調査した。バグの28%は、誤ったユニタリ行列の実装など、量子固有である。われわれはQMLプラットフォームで5つの症状と9つの根本原因の分類を手作業で抽出した。
論文参考訳（メタデータ） (2023-06-10T07:26:34Z)
Comparative analysis of real bugs in open-source Machine Learning projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文参考訳（メタデータ） (2022-09-20T18:12:12Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
Characterizing and Detecting Mismatch in Machine-Learning-Enabled Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文参考訳（メタデータ） (2021-03-25T19:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。