論文の概要: Beyond Localization: Recoverable Headroom and Residual Frontier in Repository-Level RAG-APR
- arxiv url: http://arxiv.org/abs/2603.29067v1
- Date: Mon, 30 Mar 2026 23:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.94047
- Title: Beyond Localization: Recoverable Headroom and Residual Frontier in Repository-Level RAG-APR
- Title(参考訳): Beyond Localization: Recoverable Headroom and Residual Frontier in Repository-Level RAG-APR
- Authors: Pengtao Zhao, Boyang Yang, Bach Le, Feng Liu, Haoye Tian,
- Abstract要約: リポジトリレベルの自動プログラム修復は、より優れた修復のための主要な経路として、より強力なローカライゼーションを扱うようになってきている。
本稿では,3つのリポジトリレベルのRAG-APRパラダイム,Agentless,KG,ExpeRepairを用いたSWE-bench Liteについて検討する。
全体として、より強力なローカライゼーション、バウンド検索、エビデンス品質、インターフェース設計はすべてリポジトリレベルの修復結果です。
- 参考スコア(独自算出の注目度): 6.656734479634733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level automated program repair (APR) increasingly treats stronger localization as the main path to better repair. We ask a more targeted question: once localization is strengthened, which post-localization levers still provide recoverable gains, which are bounded within our protocol, and what residual frontier remains? We study this question on SWE-bench Lite with three representative repository-level RAG-APR paradigms, Agentless, KGCompass, and ExpeRepair. Our protocol combines Oracle Localization, within-pool Best-of-K, fixed-interface added context probes with per-condition same-token filler controls and same-repository hard negatives, and a common-wrapper oracle check. Oracle Localization improves all three systems, but Oracle success still stays below 50%. Extra candidate diversity still helps inside the sampled 10-patch pools, but that headroom saturates quickly. Under the two fixed interfaces, most informative added context conditions still outperform their own matched controls. The common-wrapper check shows different system responses: under a common wrapper, gains remain large for KGCompass and ExpeRepair, while Agentless changes more with builder choice. Prompt-level fusion still leaves a large residual frontier: the best fixed probe adds only 6 solved instances beyond the native three-system Solved@10 union. Overall, stronger localization, bounded search, evidence quality, and interface design all shape repository-level repair outcomes.
- Abstract(参考訳): リポジトリレベルの自動プログラム修復(APR)は、より強力なローカライゼーションをより良い修復のための主要な経路として扱うようになっている。
ローカライゼーションが強化されると、どのポストローカライゼーションレバーが依然としてリカバリ可能なゲインを提供し、プロトコル内でバウンドされ、残余フロンティアが残るのか?
本稿では,3つのリポジトリレベルのRAG-APRパラダイム,Agentless,KGCompass,ExpeRepairを用いたSWE-bench Liteについて検討する。
本プロトコルでは,Oracle Localization,In-pool Best-of-K,固定インターフェース追加コンテキストプローブ,条件ごとの同調型フィラーコントロール,同リポジトリのハードネガティブ,コモンラッパーのオラクルチェックを組み合わせる。
Oracleのローカライゼーションは3つのシステムすべてを改善するが、Oracleの成功は依然として50%以下である。
追加の候補の多様性は、サンプルの10個のパッチプール内でも有効だが、そのヘッドルームは急速に飽和する。
2つの固定インターフェイスの下では、最も情報に富んだ追加コンテキスト条件は、マッチした制御よりも依然として優れている。
共通ラッパーの下では、KGCompassやExpeRepairではゲインが大きく、Agentlessはビルダーの選択によって大きく変化する。
最高の固定プローブは、ネイティブな3つのシステムであるSolved@10ユニオンを超えて6つの解決されたインスタンスしか追加しない。
全体として、より強力なローカライゼーション、バウンド検索、エビデンス品質、インターフェース設計はすべてリポジトリレベルの修復結果です。
関連論文リスト
- SQL-ASTRA: Alleviating Sparse Feedback in Agentic SQL via Column-Set Matching and Trajectory Aggregation [51.696027315573296]
本稿では,効率的な軌道レベル評価と高密度ステップレベル信号の提供を目的とした,普遍的な2層報酬機構を特徴とするフレームワークを提案する。
伝統的なパラダイムでは、報酬は最終ターンのフィードバックによってのみ決定され、中間プロセスを無視し、曖昧な信用評価をもたらす。
提案手法は,同一モデルを用いてBIRD 2.0上でのSOTA Arctic-Text2-R1-7Bより優れており,頑健なマルチターンエージェントのパラダイムに向けてテキストから逆収束を推進していることを示す。
論文 参考訳(メタデータ) (2026-03-17T06:26:36Z) - RepoRepair: Leveraging Code Documentation for Repository-Level Automated Program Repair [30.23781155493087]
RepoRepairは,レポジトリレベルの障害ローカライゼーションとプログラム修復のための新しいドキュメンテーションによるアプローチである。
私たちの中核的な洞察は、LLMを活用して、コードリポジトリの階層的なコードドキュメンテーション(関数からファイルまで)を生成することです。
RepoRepairはまず、テキストベースのLLMを使用して、リポジトリのファイル/関数レベルのコードドキュメントを生成する。
論文 参考訳(メタデータ) (2026-03-01T11:06:24Z) - SGAgent: Suggestion-Guided LLM-Based Multi-Agent Framework for Repository-Level Software Repair [22.745971570878435]
本稿では,リポジトリレベルのソフトウェア修復のためのSuggestion-Guided Multi-Agentフレームワークを提案する。
SGAgentは、局所化から修復への移行を強化するための提案段階を導入する。
3つの専門のサブエージェントが協力して、エンドツーエンドのソフトウェアの自動修復を実現します。
論文 参考訳(メタデータ) (2026-02-27T03:32:47Z) - Pull Requests as a Training Signal for Repo-Level Code Editing [49.82435173554125]
Clean Pull Request(Clean-PR)は、現実のGitHubプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、トレーニング中のパラダイムである。
ノイズの多いプルリクエストの差分を,再構築と検証を通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入する。
SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
論文 参考訳(メタデータ) (2026-02-07T09:22:25Z) - Outcome-Conditioned Reasoning Distillation for Resolving Software Issues [49.16055123488827]
本稿では, 検証済みパッチを監督として, リポジトリ内問題を解決したO-CRD(Outcome-Conditioned Reasoning Distillation)フレームワークを提案する。
歴史的修正から始まり、検証結果から段階的な修理トレースを後方に再構築する。
SWE-Bench Liteでは、GPT-4oではPass@1が10.4%、DeepSeek-V3では8.6%、GPT-5では10.3%増加する。
論文 参考訳(メタデータ) (2026-01-30T18:25:39Z) - REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。
LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。
本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文 参考訳(メタデータ) (2025-10-04T00:34:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization [86.57743637722596]
LLM(Large Language Model)ベースのWebエージェントは、知識集約的なタスクに強いパフォーマンスを示す。
複数のエンティティ、絡み合った関係、不確実性の高い検索サイクルを含む複雑なクエリ。
本稿では,周期的文脈要約による不確定探索を可能にする新しいパラダイムであるReSumを紹介する。
論文 参考訳(メタデータ) (2025-09-16T17:57:22Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - When Large Language Models Confront Repository-Level Automatic Program
Repair: How Well They Done? [13.693311241492827]
オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。
GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎなかった。
本稿では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
論文 参考訳(メタデータ) (2024-03-01T11:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。