論文の概要: Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report
- arxiv url: http://arxiv.org/abs/2209.09932v1
- Date: Tue, 20 Sep 2022 18:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:53:32.660049
- Title: Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report
- Title(参考訳): オープンソースの機械学習プロジェクトにおける実際のバグの比較分析 -- 登録レポート
- Authors: Tuan Dung Lai, Anj Simmons, Scott Barnett, Jean-Guy Schneider, Rajesh
Vasa
- Abstract要約: 機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
- 参考スコア(独自算出の注目度): 5.275804627373337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Machine Learning (ML) systems rely on data to make predictions,
the systems have many added components compared to traditional software systems
such as the data processing pipeline, serving pipeline, and model training.
Existing research on software maintenance has studied the issue-reporting needs
and resolution process for different types of issues, such as performance and
security issues. However, ML systems have specific classes of faults, and
reporting ML issues requires domain-specific information. Because of the
different characteristics between ML and traditional Software Engineering
systems, we do not know to what extent the reporting needs are different, and
to what extent these differences impact the issue resolution process.
Objective: Our objective is to investigate whether there is a discrepancy in
the distribution of resolution time between ML and non-ML issues and whether
certain categories of ML issues require a longer time to resolve based on real
issue reports in open-source applied ML projects. We further investigate the
size of fix of ML issues and non-ML issues. Method: We extract issues reports,
pull requests and code files in recent active applied ML projects from Github,
and use an automatic approach to filter ML and non-ML issues. We manually label
the issues using a known taxonomy of deep learning bugs. We measure the
resolution time and size of fix of ML and non-ML issues on a controlled sample
and compare the distributions for each category of issue.
- Abstract(参考訳): 背景: マシンラーニング(ML)システムは予測にデータに依存しており、データ処理パイプラインやサービスパイプライン、モデルトレーニングといった従来のソフトウェアシステムと比較して、多くのコンポーネントが追加されている。
ソフトウェアメンテナンスに関する既存の研究は、パフォーマンスやセキュリティの問題など、さまざまな種類の問題に対する問題報告のニーズと解決プロセスを調査している。
しかし、MLシステムには特定の障害クラスがあり、ML問題の報告にはドメイン固有の情報が必要である。
mlと従来のソフトウェアエンジニアリングシステムの違いから、報告のニーズがどの程度異なるのか、そして、これらの違いがどの程度問題解決プロセスに影響を与えるのかはわかりません。
目的:我々の目的は,MLと非ML課題の解決時間分布に相違があるか,また,オープンソース適用MLプロジェクトにおける実際の課題報告に基づいて,特定のカテゴリのML課題が解決に時間がかかるかを検討することである。
さらに,ML問題と非ML問題の大きさについて検討する。
方法:最近のアクティブなMLプロジェクトのイシューレポート,プルリクエスト,コードファイルをGithubから抽出し,MLや非MLの問題を自動でフィルタリングする。
ディープラーニングバグの既知の分類を用いて,問題を手作業でラベル付けする。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
関連論文リスト
- When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in
ML-enabled Systems [13.718420553401662]
本研究の目的は、ML特有のコードの臭いとして知られる、特定の品質関連関心事の出現と進化を調査することである。
具体的には、実際のML対応システムにおいて、ML特有のコードの臭いを経験的に分析して研究する計画を提案する。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
論文 参考訳(メタデータ) (2024-03-13T07:43:45Z) - Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Bug Characterization in Machine Learning-based Systems [15.521925194920893]
本稿では,機械学習ベースのソフトウェアシステムにおけるバグの特徴と,メンテナンスの観点からMLと非MLのバグの違いについて検討する。
我々の分析によると、MLベースのシステムで報告されている実際の問題の半分はMLバグであり、MLコンポーネントが非MLコンポーネントよりもエラーを起こしやすいことを示している。
論文 参考訳(メタデータ) (2023-07-26T21:21:02Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - Towards Perspective-Based Specification of Machine Learning-Enabled
Systems [1.3406258114080236]
本稿では、ML対応システムを特定するための視点に基づくアプローチに向けた取り組みについて述べる。
このアプローチでは、目標、ユーザエクスペリエンス、インフラストラクチャ、モデル、データという5つの視点にグループ化された45のML関心事のセットを分析する。
本論文の主な貢献は、ML対応システムを特定するのに役立つ2つの新しいアーティファクトを提供することである。
論文 参考訳(メタデータ) (2022-06-20T13:09:23Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z) - Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文 参考訳(メタデータ) (2020-01-07T02:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。