論文の概要: Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent
- arxiv url: http://arxiv.org/abs/2512.14990v1
- Date: Wed, 17 Dec 2025 00:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.813739
- Title: Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent
- Title(参考訳): イミテーションゲーム:インテリジェントエージェントを活用するディープラーニングバグを再現する
- Authors: Mehil B Shah, Mohammad Masudur Rahman, Foutse Khomh,
- Abstract要約: RepGenは、ディープラーニングバグを再現するための、新しく、自動化され、インテリジェントなアプローチである。
実世界の106のディープラーニングバグに対してRepGenを評価し,再現率80.19%を達成した。
- 参考スコア(独自算出の注目度): 6.992405861720876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their wide adoption in various domains (e.g., healthcare, finance, software engineering), Deep Learning (DL)-based applications suffer from many bugs, failures, and vulnerabilities. Reproducing these bugs is essential for their resolution, but it is extremely challenging due to the inherent nondeterminism of DL models and their tight coupling with hardware and software environments. According to recent studies, only about 3% of DL bugs can be reliably reproduced using manual approaches. To address these challenges, we present RepGen, a novel, automated, and intelligent approach for reproducing deep learning bugs. RepGen constructs a learning-enhanced context from a project, develops a comprehensive plan for bug reproduction, employs an iterative generate-validate-refine mechanism, and thus generates such code using an LLM that reproduces the bug at hand. We evaluate RepGen on 106 real-world deep learning bugs and achieve a reproduction rate of 80.19%, a 19.81% improvement over the state-of-the-art measure. A developer study involving 27 participants shows that RepGen improves the success rate of DL bug reproduction by 23.35%, reduces the time to reproduce by 56.8%, and lowers participants' cognitive load.
- Abstract(参考訳): さまざまな領域(ヘルスケア、金融、ソフトウェアエンジニアリングなど)で広く採用されているにもかかわらず、ディープラーニング(DL)ベースのアプリケーションは、多くのバグや障害、脆弱性に悩まされている。
これらのバグを再現することは、その解決に不可欠ですが、DLモデル固有の非決定性と、ハードウェアとソフトウェア環境との密結合のため、非常に難しいのです。
最近の研究によると、手動でDLバグの約3%を確実に再現できるという。
これらの課題に対処するために、ディープラーニングバグを再現するための、新しく、自動化され、インテリジェントなアプローチであるRepGenを紹介します。
RepGenは、プロジェクトから学習の強化されたコンテキストを構築し、バグ再現の包括的な計画を作成し、反復生成バリデート-リファイン機構を採用し、手元にあるバグを再現するLLMを使用してコードを生成する。
実世界の106のディープラーニングバグに対するRepGenの評価を行い、再現率80.19%、最先端の指標に対する19.81%の改善を達成した。
27人の参加者を含む開発者研究によると、RepGenはDLバグ再現の成功率を23.35%改善し、56.8%削減し、参加者の認知負荷を低減している。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study [13.17302533571231]
本稿では,ディープラーニングのバグを再現する上で重要な課題について検討する。
重要な問題を改善する可能性のある編集動作と有用な情報を特定します。
165件のバグのうち148件を再現しました。
論文 参考訳(メタデータ) (2024-01-05T21:30:13Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。