Fugu-MT 論文翻訳(概要): Abstain and Validate: A Dual-LLM Policy for Reducing Noise in Agentic Program Repair

論文の概要: Abstain and Validate: A Dual-LLM Policy for Reducing Noise in Agentic Program Repair

arxiv url: http://arxiv.org/abs/2510.03217v1
Date: Fri, 03 Oct 2025 17:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 16:35:52.526694
Title: Abstain and Validate: A Dual-LLM Policy for Reducing Noise in Agentic Program Repair
Title（参考訳）: Abstain and Validate: エージェントプログラム修復におけるノイズ低減のためのデュアルLLMポリシー
Authors: José Cambronero, Michele Tufano, Sherry Shi, Renyao Wei, Grant Uy, Runxiang Cheng, Chin-Jung Liu, Shiying Pan, Satish Chandra, Pat Rondon,
Abstract要約: Agentic Automated Program repair (APR)は、ますます複雑なリポジトリレベルのバグに対処している。互換性のないパッチを開発者に示すと、かなりのノイズが発生する可能性がある。このようなノイズを減らすために,バグ回避とパッチ検証という2つの補完的なポリシーを導入する。
参考スコア（独自算出の注目度）: 7.118712516789191
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic Automated Program Repair (APR) is increasingly tackling complex, repository-level bugs in industry, but ultimately agent-generated patches still need to be reviewed by a human before committing them to ensure they address the bug. Showing unlikely patches to developers can lead to substantial noise, wasting valuable developer time and eroding trust in automated code changes. We introduce two complementary LLM-based policies to reduce such noise: bug abstention and patch validation policies. Bug abstention excludes bugs that the agentic APR system is unlikely to fix. Patch validation rejects patches that are unlikely to be a good fix for the given bug. We evaluate both policies on three sets of bugs from Google's codebase, and their candidate patches generated by an internal agentic APR system. On a set of 174 human-reported bugs, removing bugs and patch trajectories rejected by our policies can raise success rates by up to 13 percentage points and 15 percentage points, respectively, and by up to 39 percentage points in combination. On null pointer exceptions and sanitizer-reported bugs with machine-generated bug reports, patch validation also improves average single-sample success rates. This two-policy approach provides a practical path to the reliable, industrial-scale deployment of agentic APR systems.
Abstract（参考訳）: Agentic Automated Program repair (APR)は、ますます複雑でリポジトリレベルのバグに対処している。互換性のないパッチを開発者に示すことで、かなりのノイズが発生し、開発者の貴重な時間を浪費し、自動化されたコード変更に対する信頼を損なう可能性がある。バグ回避ポリシーとパッチ検証ポリシーの2つの補完的なLCMベースのポリシーを導入する。 Bug abstentionは、エージェントAPRシステムが修正できないバグを除外する。パッチ検証は、与えられたバグに対する適切な修正ではないパッチを拒否する。 Googleのコードベースからの3つのバグセットに対するポリシーと、内部エージェントAPRシステムによって生成されるパッチについて評価する。人為的に報告された174のバグに対して、当社のポリシーによって拒否されたバグとパッチの軌跡を削除すれば、成功率は最大13ポイントと15ポイント、合計39ポイント向上できる。 nullポインタ例外と、マシン生成バグレポートでサニタイザが報告したバグに対して、パッチ検証は、平均的なシングルサンプルの成功率も改善する。この2つの政治アプローチは、エージェントAPRシステムの信頼性と産業規模の展開への実践的な道筋を提供する。

関連論文リスト

Red Teaming Program Repair Agents: When Correct Patches can Hide Vulnerabilities [22.02073334787359]
本稿では,APRエージェントが機能的正確かつ脆弱なパッチを生成するために,逆問題文を生成するSWExploitを提案する。評価に基づいて、すべてのテストに合格するパッチが本質的に信頼性と安全性を持つという従来の仮定に初めて挑戦します。
論文参考訳（メタデータ） (2025-09-30T07:38:57Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。 LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文参考訳（メタデータ） (2025-09-26T18:06:36Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Adversarial Bug Reports as a Security Risk in Language Model-Based Automated Program Repair [1.1677624591989955]
自動プログラム修復(APR)システムは、現代のソフトウェア開発にますます統合されている。本稿では,敵のバグ報告によるセキュリティリスクについて検討する。我々は、包括的脅威モデルを開発し、そのような攻撃に対する最先端のAPRシステムの脆弱性を評価するための実証的研究を行う。
論文参考訳（メタデータ） (2025-09-04T09:41:57Z)
Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文参考訳（メタデータ） (2025-03-19T14:02:21Z)
Evaluating Agent-based Program Repair at Google [9.62742759337993]
エージェントベースのプログラム修復は、複雑なバグをエンドツーエンドで自動的に解決する。最近の研究は、人気のあるオープンソースSWE-Benchにおけるエージェントベースの修復アプローチの使用について検討している。本稿では,企業コンテキストにおけるバグに対処するためのエージェント的アプローチの適用可能性について検討する。
論文参考訳（メタデータ） (2025-01-13T18:09:25Z)
SoftPatch+: Fully Unsupervised Anomaly Classification and Segmentation [84.07909405887696]
本論文は、完全教師なし産業異常検出(すなわち、ノイズデータ付き教師なしAD)を初めて検討したものである。メモリベースの非教師なしAD手法であるSoftPatchとSoftPatch+を提案する。既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。様々なノイズシナリオで実施された総合的な実験により、SoftPatchとSoftPatch+はMVTecAD、ViSA、BTADのベンチマークで最先端のADメソッドよりも優れていた。
論文参考訳（メタデータ） (2024-12-30T11:16:49Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。