論文の概要: Project Prometheus: Bridging the Intent Gap in Agentic Program Repair via Reverse-Engineered Executable Specifications
- arxiv url: http://arxiv.org/abs/2604.17464v1
- Date: Sun, 19 Apr 2026 14:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.539514
- Title: Project Prometheus: Bridging the Intent Gap in Agentic Program Repair via Reverse-Engineered Executable Specifications
- Title(参考訳): Project Prometheus: Reverse-Engineered Executable Specificationsによるエージェントプログラム修復におけるインテントギャップのブリッジ
- Authors: Yongchao Wang, Zhiqiu Huang,
- Abstract要約: 現在のソリューションは、自然言語の要約や敵のサンプリングに頼っているが、手術の修理に必要な決定論的制約を与えていないことが多い。
コード生成よりもtextitSpecification Inference を優先することで、このギャップを埋める新しいフレームワークである textscPrometheus を紹介します。
我々のフレームワークは textbf93.97% (639/680) の完全なパッチレートを達成した。
- 参考スコア(独自算出の注目度): 14.657771106188115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition from neural machine translation to agentic workflows has revolutionized Automated Program Repair (APR). However, existing agents, despite their advanced reasoning capabilities, frequently suffer from the ``Intent Gap'' -- the misalignment between the generated patch and the developer's original intent. Current solutions relying on natural language summaries or adversarial sampling often fail to provide the deterministic constraints required for surgical repairs. In this paper, we introduce \textsc{Prometheus}, a novel framework that bridges this gap by prioritizing \textit{Specification Inference} over code generation. We employ Behavior-Driven Development (BDD) as an executable contract, utilizing a multi-agent architecture to reverse-engineer Gherkin specifications from runtime failure reports. To resolve the ``Hallucination of Intent,'' we propose a \textbf{Requirement Quality Assurance (RQA) Loop}, a mechanism that leverages ground-truth code as a proxy oracle to validate inferred specifications. We evaluated \textsc{Prometheus} on 680 defects from the Defects4J benchmark. The results are transformative: our framework achieved a total correct patch rate of \textbf{93.97\%} (639/680). More significantly, it demonstrated a \textbf{Rescue Rate of 74.4\%}, successfully repairing 119 complex bugs that a strong blind agent failed to resolve. Qualitative analysis reveals that explicit intent guides agents away from structurally invasive over-engineering toward precise, minimal corrections. Our findings suggest that the future of APR lies not in larger models, but in the capability to align code with verified, \textbf{Executable Specifications} -- whether pre-existing or reverse-engineered.
- Abstract(参考訳): ニューラルネットワーク翻訳からエージェントワークフローへの移行は、自動プログラム修復(APR)に革命をもたらした。
しかし、既存のエージェントは、高度な推論機能にもかかわらず、しばしば 'Intent Gap'' -- 生成されたパッチと開発者の意図の不一致に悩まされる。
現在のソリューションは、自然言語の要約や敵のサンプリングに頼っているが、手術の修理に必要な決定論的制約を与えていないことが多い。
本稿では,このギャップを埋める新しいフレームワークである \textsc{Prometheus} を紹介し,コード生成に対して \textit{Specification Inference} を優先する。
我々は振る舞い駆動開発(BDD)を実行可能な契約として採用し、ランタイム障害レポートからGherkin仕様をリバースエンジニアリングするマルチエージェントアーキテクチャを活用しています。
IntentのHallucination of Intent,'' を解くために,inferred仕様を検証するために,代用託宣として接地符号を利用するメカニズムである \textbf{Requirement Quality Assurance (RQA) Loop} を提案する。
Defects4Jベンチマークの680個の欠陥について, textsc{Prometheus} の評価を行った。
我々のフレームワークは、全正確なパッチレートを \textbf{93.97\%} (639/680) で達成した。
さらに、強力な盲人エージェントが解決できなかった119の複雑なバグの修復に成功した、74.4\%のtextbf{Rescue Rateを実証した。
定性的分析により、明示的な意図は、エージェントを構造的に侵入的なオーバーエンジニアリングから、正確で最小限の修正へと導くことが明らかになった。
我々の発見は、APRの将来はより大きなモデルではなく、コードと検証済みの \textbf{Executable Specifications} をアライメントする能力にあることを示唆している。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Intent Formalization: A Grand Challenge for Reliable Coding in the Age of AI Agents [7.228124845671868]
エージェントAIシステムは、驚くほどの頻度でコードを生成することができる。
生成されたコードが実際にユーザが意図した通りに動作するようにします。
論文 参考訳(メタデータ) (2026-03-17T21:28:59Z) - Adversarial Bug Reports as a Security Risk in Language Model-Based Automated Program Repair [1.1677624591989955]
自動プログラム修復(APR)システムは、現代のソフトウェア開発にますます統合されている。
本稿では,敵のバグ報告によるセキュリティリスクについて検討する。
我々は、包括的脅威モデルを開発し、そのような攻撃に対する最先端のAPRシステムの脆弱性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2025-09-04T09:41:57Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Adversarial Reasoning for Repair Based on Inferred Program Intent [12.923634025700826]
本稿では,批判的・敵対的推論に基づくAdverIntent-Agentという手法を提案する。
当社のアプローチは、複数のAPRパッチの生成から、複数の潜在的プログラム意図の推測に焦点を移すという斬新なアプローチです。
AdverIntent-AgentはDefects4J 2.0とHumanEval-Javaの2つのベンチマークで評価された。
論文 参考訳(メタデータ) (2025-05-19T11:51:56Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。