Fugu-MT 論文翻訳(概要): Agentic Bug Reproduction for Effective Automated Program Repair at Google

論文の概要: Agentic Bug Reproduction for Effective Automated Program Repair at Google

arxiv url: http://arxiv.org/abs/2502.01821v2
Date: Tue, 11 Mar 2025 02:30:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 16:15:12.298661
Title: Agentic Bug Reproduction for Effective Automated Program Repair at Google
Title（参考訳）: Googleにおける効果的な自動プログラム修復のためのエージェントバグ再現
Authors: Runxiang Cheng, Michele Tufano, Jürgen Cito, José Cambronero, Pat Rondon, Renyao Wei, Aaron Sun, Satish Chandra,
Abstract要約: 本稿では,業界,特にGoogleにおけるBRTの自動生成について検討する。我々は、最先端のBRT生成技術であるLIBROを適応し、評価し、エージェントベースのアプローチであるBRT Agentを提示する。以上の結果から,APRシステムにBRTを提供することで,バグが30%増えることが判明した。
参考スコア（独自算出の注目度）: 9.64193881099048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bug reports often lack sufficient detail for developers to reproduce and fix the underlying defects. Bug Reproduction Tests (BRTs), tests that fail when the bug is present and pass when it has been resolved, are crucial for debugging, but they are rarely included in bug reports, both in open-source and in industrial settings. Thus, automatically generating BRTs from bug reports has the potential to accelerate the debugging process and lower time to repair. This paper investigates automated BRT generation within an industry setting, specifically at Google, focusing on the challenges of a large-scale, proprietary codebase and considering real-world industry bugs extracted from Google's internal issue tracker. We adapt and evaluate a state-of-the-art BRT generation technique, LIBRO, and present our agent-based approach, BRT Agent, which makes use of a fine-tuned Large Language Model (LLM) for code editing. Our BRT Agent significantly outperforms LIBRO, achieving a 28% plausible BRT generation rate, compared to 10% by LIBRO, on 80 human-reported bugs from Google's internal issue tracker. We further investigate the practical value of generated BRTs by integrating them with an Automated Program Repair (APR) system at Google. Our results show that providing BRTs to the APR system results in 30% more bugs with plausible fixes. Additionally, we introduce Ensemble Pass Rate (EPR), a metric which leverages the generated BRTs to select the most promising fixes from all fixes generated by APR system. Our evaluation on EPR for Top-K and threshold-based fix selections demonstrates promising results and trade-offs. For example, EPR correctly selects a plausible fix from a pool of 20 candidates in 70% of cases, based on its top-1 ranking.
Abstract（参考訳）: バグレポートは、開発者が根底にある欠陥を再現し修正するのに十分な詳細を欠いていることが多い。バグ再現テスト(BRT、Bug Reproduction Tests)は、バグが存在するときに失敗し、解決された時にパスするテストである。したがって、バグレポートから自動的にBRTを生成することは、デバッグプロセスを加速し、修理に要する時間を短縮する可能性がある。本稿では,特にGoogleにおける業界環境におけるBRTの自動生成について検討し,大規模でプロプライエタリなコードベースの課題に着目し,Google内部のイシュートラッカから抽出した実業界バグを考察する。我々は,現在最先端のBRT生成技術であるLIBROを適応・評価し,コード編集にLLM(Large Language Model)を用いたエージェントベースアプローチであるBRT Agentを提案する。当社のBRTエージェントは,Google内部のイシュートラッカから報告された80のバグに対して,LIBROの10%に対して28%の可視なBRT生成率を達成したことで,LIBROを著しく上回りました。さらに,Googleにおける自動プログラム修復(APR)システムと統合することにより,生成したBRTの実用的価値について検討する。以上の結果から,APRシステムにBRTを提供することで,バグが30%増えることが判明した。さらに、生成したBRTを利用して、APRシステムによって生成されたすべての修正から最も有望な修正を選択する指標であるEnsemble Pass Rate (EPR)を導入する。トップKおよびしきい値に基づく修正選択に対するEPRの評価は,有望な結果とトレードオフを示す。例えば、EPRは、上位1のランキングに基づいて、70%のケースで20人の候補者のプールから、妥当な修正を正しく選択する。

関連論文リスト

Repair-R1: Better Test Before Repair [2.982543556561469]
APRは、自動的にプログラム欠陥を特定し、パッチを生成し、修復を検証することを目的としている。現在のAPRメソッドは、推論段階でのみテストケースを使用するのが一般的である。本稿では,モデルのトレーニングフェーズにテストケースを導入し,修正に先立ってテスト生成をシフトするリファレンス-R1を提案する。
論文参考訳（メタデータ） (2025-07-30T17:24:05Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Evaluating Agent-based Program Repair at Google [9.62742759337993]
エージェントベースのプログラム修復は、複雑なバグをエンドツーエンドで自動的に解決する。最近の研究は、人気のあるオープンソースSWE-Benchにおけるエージェントベースの修復アプローチの使用について検討している。本稿では,企業コンテキストにおけるバグに対処するためのエージェント的アプローチの適用可能性について検討する。
論文参考訳（メタデータ） (2025-01-13T18:09:25Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)
ContrastRepair: Enhancing Conversation-Based Automated Program Repair via Contrastive Test Case Pairs [23.419180504723546]
ContrastRepairは、対照的なテストペアを提供することで、会話駆動型APRを強化する、新しいAPRアプローチである。 Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
論文参考訳（メタデータ） (2024-03-04T12:15:28Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。 AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文参考訳（メタデータ） (2023-06-03T03:03:52Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Improving Automated Program Repair with Domain Adaptation [0.0]
自動プログラム修復(APR)は、ソースコードのバグ/欠陥を修正するプロセスとして、自動化ツールによって定義される。 APRツールは最近、最先端のニューラルネットワーク処理(NLP)技術を活用することで、有望な結果を経験している。
論文参考訳（メタデータ） (2022-12-21T23:52:09Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。 BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文参考訳（メタデータ） (2021-06-11T20:31:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。