論文の概要: Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report
- arxiv url: http://arxiv.org/abs/2209.09932v1
- Date: Tue, 20 Sep 2022 18:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:53:32.660049
- Title: Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report
- Title(参考訳): オープンソースの機械学習プロジェクトにおける実際のバグの比較分析 -- 登録レポート
- Authors: Tuan Dung Lai, Anj Simmons, Scott Barnett, Jean-Guy Schneider, Rajesh
Vasa
- Abstract要約: 機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
- 参考スコア(独自算出の注目度): 5.275804627373337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Machine Learning (ML) systems rely on data to make predictions,
the systems have many added components compared to traditional software systems
such as the data processing pipeline, serving pipeline, and model training.
Existing research on software maintenance has studied the issue-reporting needs
and resolution process for different types of issues, such as performance and
security issues. However, ML systems have specific classes of faults, and
reporting ML issues requires domain-specific information. Because of the
different characteristics between ML and traditional Software Engineering
systems, we do not know to what extent the reporting needs are different, and
to what extent these differences impact the issue resolution process.
Objective: Our objective is to investigate whether there is a discrepancy in
the distribution of resolution time between ML and non-ML issues and whether
certain categories of ML issues require a longer time to resolve based on real
issue reports in open-source applied ML projects. We further investigate the
size of fix of ML issues and non-ML issues. Method: We extract issues reports,
pull requests and code files in recent active applied ML projects from Github,
and use an automatic approach to filter ML and non-ML issues. We manually label
the issues using a known taxonomy of deep learning bugs. We measure the
resolution time and size of fix of ML and non-ML issues on a controlled sample
and compare the distributions for each category of issue.
- Abstract(参考訳): 背景: マシンラーニング(ML)システムは予測にデータに依存しており、データ処理パイプラインやサービスパイプライン、モデルトレーニングといった従来のソフトウェアシステムと比較して、多くのコンポーネントが追加されている。
ソフトウェアメンテナンスに関する既存の研究は、パフォーマンスやセキュリティの問題など、さまざまな種類の問題に対する問題報告のニーズと解決プロセスを調査している。
しかし、MLシステムには特定の障害クラスがあり、ML問題の報告にはドメイン固有の情報が必要である。
mlと従来のソフトウェアエンジニアリングシステムの違いから、報告のニーズがどの程度異なるのか、そして、これらの違いがどの程度問題解決プロセスに影響を与えるのかはわかりません。
目的:我々の目的は,MLと非ML課題の解決時間分布に相違があるか,また,オープンソース適用MLプロジェクトにおける実際の課題報告に基づいて,特定のカテゴリのML課題が解決に時間がかかるかを検討することである。
さらに,ML問題と非ML問題の大きさについて検討する。
方法:最近のアクティブなMLプロジェクトのイシューレポート,プルリクエスト,コードファイルをGithubから抽出し,MLや非MLの問題を自動でフィルタリングする。
ディープラーニングバグの既知の分類を用いて,問題を手作業でラベル付けする。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in
ML-enabled Systems [13.718420553401662]
本研究の目的は、ML特有のコードの臭いとして知られる、特定の品質関連関心事の出現と進化を調査することである。
具体的には、実際のML対応システムにおいて、ML特有のコードの臭いを経験的に分析して研究する計画を提案する。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
論文 参考訳(メタデータ) (2024-03-13T07:43:45Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Bug Characterization in Machine Learning-based Systems [15.521925194920893]
本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
論文 参考訳(メタデータ) (2023-07-26T21:21:02Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - Towards Perspective-Based Specification of Machine Learning-Enabled
Systems [1.3406258114080236]
本稿では、ML対応システムを特定するための視点に基づくアプローチに向けた取り組みについて述べる。
このアプローチでは、目標、ユーザエクスペリエンス、インフラストラクチャ、モデル、データという5つの視点にグループ化された45のML関心事のセットを分析する。
本論文の主な貢献は、ML対応システムを特定するのに役立つ2つの新しいアーティファクトを提供することである。
論文 参考訳(メタデータ) (2022-06-20T13:09:23Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z) - Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文 参考訳(メタデータ) (2020-01-07T02:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。