Fugu-MT 論文翻訳(概要): Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent

論文の概要: Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent

arxiv url: http://arxiv.org/abs/2512.14990v1
Date: Wed, 17 Dec 2025 00:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-18 17:06:26.813739
Title: Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent
Title（参考訳）: イミテーションゲーム:インテリジェントエージェントを活用するディープラーニングバグを再現する
Authors: Mehil B Shah, Mohammad Masudur Rahman, Foutse Khomh,
Abstract要約: RepGenは、ディープラーニングバグを再現するための、新しく、自動化され、インテリジェントなアプローチである。実世界の106のディープラーニングバグに対してRepGenを評価し,再現率80.19%を達成した。
参考スコア（独自算出の注目度）: 6.992405861720876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their wide adoption in various domains (e.g., healthcare, finance, software engineering), Deep Learning (DL)-based applications suffer from many bugs, failures, and vulnerabilities. Reproducing these bugs is essential for their resolution, but it is extremely challenging due to the inherent nondeterminism of DL models and their tight coupling with hardware and software environments. According to recent studies, only about 3% of DL bugs can be reliably reproduced using manual approaches. To address these challenges, we present RepGen, a novel, automated, and intelligent approach for reproducing deep learning bugs. RepGen constructs a learning-enhanced context from a project, develops a comprehensive plan for bug reproduction, employs an iterative generate-validate-refine mechanism, and thus generates such code using an LLM that reproduces the bug at hand. We evaluate RepGen on 106 real-world deep learning bugs and achieve a reproduction rate of 80.19%, a 19.81% improvement over the state-of-the-art measure. A developer study involving 27 participants shows that RepGen improves the success rate of DL bug reproduction by 23.35%, reduces the time to reproduce by 56.8%, and lowers participants' cognitive load.
Abstract（参考訳）: さまざまな領域(ヘルスケア、金融、ソフトウェアエンジニアリングなど)で広く採用されているにもかかわらず、ディープラーニング(DL)ベースのアプリケーションは、多くのバグや障害、脆弱性に悩まされている。これらのバグを再現することは、その解決に不可欠ですが、DLモデル固有の非決定性と、ハードウェアとソフトウェア環境との密結合のため、非常に難しいのです。最近の研究によると、手動でDLバグの約3%を確実に再現できるという。これらの課題に対処するために、ディープラーニングバグを再現するための、新しく、自動化され、インテリジェントなアプローチであるRepGenを紹介します。 RepGenは、プロジェクトから学習の強化されたコンテキストを構築し、バグ再現の包括的な計画を作成し、反復生成バリデート-リファイン機構を採用し、手元にあるバグを再現するLLMを使用してコードを生成する。実世界の106のディープラーニングバグに対するRepGenの評価を行い、再現率80.19%、最先端の指標に対する19.81%の改善を達成した。 27人の参加者を含む開発者研究によると、RepGenはDLバグ再現の成功率を23.35%改善し、56.8%削減し、参加者の認知負荷を低減している。

関連論文リスト

Test-time Recursive Thinking: Self-Improvement without External Feedback [120.80790108733942]
TRT(Test-time Recursive Thinking)は、反復的な自己改善フレームワークである。オープンソースモデルはAIME-25/24で100%精度に達し、LiveCodeBenchの最も難しい問題では、クローズドソースモデルは外部からのフィードバックなしで10.4-14.8ポイント改善されている。
論文参考訳（メタデータ） (2026-02-03T04:37:37Z)
Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文参考訳（メタデータ） (2025-12-21T00:49:40Z)
RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks [75.52891348667491]
オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。関連するルーリックの数が多ければ多いほど、極めて高い検証コストと応答の不完全な評価につながる。 RLAC(Reinforcement Learning with Adrial Critic, Reinforcement Learning with Adrial Critic)を提案する。
論文参考訳（メタデータ） (2025-11-03T17:15:05Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。 BugScopeが87.04%の精度を達成したことを示す。 Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文参考訳（メタデータ） (2025-07-21T14:34:01Z)
BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。 BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。 5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文参考訳（メタデータ） (2025-06-12T09:02:20Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。その結果,既存のSOTA法よりも20%改善した。
論文参考訳（メタデータ） (2024-11-21T08:49:23Z)
Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study [13.17302533571231]
本稿では,ディープラーニングのバグを再現する上で重要な課題について検討する。重要な問題を改善する可能性のある編集動作と有用な情報を特定します。 165件のバグのうち148件を再現しました。
論文参考訳（メタデータ） (2024-01-05T21:30:13Z)
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。 AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文参考訳（メタデータ） (2023-06-03T03:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。