論文の概要: Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study
- arxiv url: http://arxiv.org/abs/2401.03069v2
- Date: Tue, 18 Jun 2024 18:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:48:32.033067
- Title: Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study
- Title(参考訳): 深層学習バグの再現性向上に向けて--実証的研究
- Authors: Mehil B. Shah, Mohammad Masudur Rahman, Foutse Khomh,
- Abstract要約: 本稿では,ディープラーニングのバグを再現する上で重要な課題について検討する。
重要な問題を改善する可能性のある編集動作と有用な情報を特定します。
165件のバグのうち148件を再現しました。
- 参考スコア(独自算出の注目度): 13.17302533571231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Deep learning has achieved remarkable progress in various domains. However, like any software system, deep learning systems contain bugs, some of which can have severe impacts, as evidenced by crashes involving autonomous vehicles. Despite substantial advancements in deep learning techniques, little research has focused on reproducing deep learning bugs, which is an essential step for their resolution. Existing literature suggests that only 3% of deep learning bugs are reproducible, underscoring the need for further research. Objective: This paper examines the reproducibility of deep learning bugs. We identify edit actions and useful information that could improve the reproducibility of deep learning bugs. Method: First, we construct a dataset of 668 deep-learning bugs from Stack Overflow and GitHub across three frameworks and 22 architectures. Second, out of the 668 bugs, we select 165 bugs using stratified sampling and attempt to determine their reproducibility. While reproducing these bugs, we identify edit actions and useful information for their reproduction. Third, we used the Apriori algorithm to identify useful information and edit actions required to reproduce specific types of bugs. Finally, we conducted a user study involving 22 developers to assess the effectiveness of our findings in real-life settings. Results: We successfully reproduced 148 out of 165 bugs attempted. We identified ten edit actions and five useful types of component information that can help us reproduce the deep learning bugs. With the help of our findings, the developers were able to reproduce 22.92% more bugs and reduce their reproduction time by 24.35%. Conclusions: Our research addresses the critical issue of deep learning bug reproducibility. Practitioners and researchers can leverage our findings to improve deep learning bug reproducibility.
- Abstract(参考訳): コンテキスト: ディープラーニングはさまざまな領域で顕著な進歩を遂げています。
しかし、他のソフトウェアシステムと同様に、ディープラーニングシステムはバグを含んでいる。
ディープラーニング技術の大幅な進歩にもかかわらず、ディープラーニングのバグを再現することに注力する研究はほとんどない。
既存の文献では、ディープラーニングのバグのわずか3%が再現可能であり、さらなる研究の必要性を暗示している。
目的:本論文では,ディープラーニングバグの再現性について検討する。
我々は、深層学習バグの再現性を向上できる編集動作と有用な情報を識別する。
メソッド: まず、Stack OverflowとGitHubから3つのフレームワークと22のアーキテクチャにわたって、668のディープラーニングバグのデータセットを構築します。
第2に、668のバグのうち165のバグを階層化サンプリングを用いて選択し、再現性を決定する。
これらのバグを再現しながら、編集動作とそれらの再現に有用な情報を識別する。
第3に、Aprioriアルゴリズムを用いて有用な情報を特定し、特定の種類のバグを再現するために必要なアクションを編集した。
最後に,22名の開発者を対象に,実生活環境における実験結果の有効性について検討した。
結果: 165件のバグのうち148件を再現した。
深層学習のバグを再現するのに役立つ10の編集アクションと5つの有用なコンポーネント情報を特定しました。
我々の発見の助けを借りて、開発者は22.92%のバグを再現し、再生時間を24.35%短縮することができた。
結論:本研究は,ディープラーニングバグ再現性に関する重要な問題に対処する。
専門家や研究者は、この発見を利用してディープラーニングのバグ再現性を向上させることができる。
関連論文リスト
- Towards Understanding the Challenges of Bug Localization in Deep
Learning Systems [2.9312156642007294]
我々は、ディープラーニングシステムにおけるバグのローカライズに関する課題をより深く理解するために、大規模な実証的研究を行っている。
まず,ディープラーニングシステムの2,365バグと,従来のソフトウェアによる2,913バグを用いて,既存の4つのテクニックのバグローカライズ性能を判定する。
第2に,ディープラーニングシステムにおけるバグタイプの違いが,バグのローカライゼーションに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-01T21:17:42Z) - An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。
私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文 参考訳(メタデータ) (2023-07-25T19:23:55Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Self-Supervised Bug Detection and Repair [27.46717890823656]
本稿では,バグ検出と修復の自己教師型学習手法であるBugLabを紹介する。
BugLabのPython実装では、2374の実際のバグのテストデータセットのベースラインメソッドで最大30%改善されている。
論文 参考訳(メタデータ) (2021-05-26T18:41:05Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z) - Advaita: Bug Duplicity Detection System [1.9624064951902522]
重複バグ率(重複バグの%)は、製品の成熟度、コードのサイズ、プロジェクトに取り組んでいるエンジニアの数に基づいて、1桁(1~9%)から2桁(40%)の範囲にある。
重複の検出は、2つのバグが同じ意味を持つかどうかを識別する。
このアプローチでは、基本的なテキスト統計的特徴、意味的特徴、文脈的特徴など、複数の機能セットを考慮に入れている。
論文 参考訳(メタデータ) (2020-01-24T04:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。