論文の概要: Specification Vibing for Automated Program Repair
- arxiv url: http://arxiv.org/abs/2602.08263v1
- Date: Mon, 09 Feb 2026 04:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.065859
- Title: Specification Vibing for Automated Program Repair
- Title(参考訳): 自動プログラム修復のための仕様バイビング
- Authors: Taohong Zhu, Lucas C. Cordeiro, Mustafa A. Mustafa, Youcheng Sun,
- Abstract要約: VibeRepairは仕様中心のAPR技術で、修正をアドホックなコード編集ではなく、行動特化修復として扱う。
Defects4J v1.2では、VibeRepairが174のバグを正しく修復し、最先端のベースラインを28のバグで越えている。
Defects4J v2.0では、178のバグを修復し、33のバグによる以前のアプローチよりも優れ、23%の改善を示している。
- 参考スコア(独自算出の注目度): 8.68148153927532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-driven automated program repair (APR) has advanced rapidly, but most methods remain code-centric: they directly rewrite source code and thereby risk hallucinated, behaviorally inconsistent fixes. This limitation suggests the need for an alternative repair paradigm that relies on a representation more accessible to LLMs than raw code, enabling more accurate understanding, analysis, and alignment during repair. To address this gap, we propose VibeRepair, a specification-centric APR technique that treats repair as behavior-specification repair rather than ad-hoc code editing. VibeRepair first translates buggy code into a structured behavior specification that captures the program's intended runtime behavior, then infers and repairs specification misalignments, and finally synthesizes code strictly guided by the corrected behavior specification. An on-demand reasoning component enriches hard cases with program analysis and historical bug-fix evidence while controlling cost. Across Defects4J and real-world benchmarks and multiple LLMs, VibeRepair demonstrates consistently strong repair effectiveness with a significantly smaller patch space. On Defects4J v1.2, VibeRepair correctly repairs 174 bugs, exceeding the strongest state-of-the-art baseline by 28 bugs, which corresponds to a 19% improvement. On Defects4J v2.0, it repairs 178 bugs, outperforming prior approaches by 33 bugs, representing a 23% improvement. Evaluations on real-world benchmarks collected after the training period of selected LLMs further confirm its effectiveness and generalizability. By centering repair on explicit behavioral intent, VibeRepair reframes APR for the era of "vibe" coding: make the behavior sing, and the code will follow.
- Abstract(参考訳): 大規模言語モデル (LLM) による自動プログラム修復 (APR) は急速に進歩しているが、ほとんどのメソッドはコード中心であり、ソースコードを直接書き直し、それによってハロゲン化され、動作に一貫性のない修正を行う。
この制限は、生のコードよりもLLMによりアクセスしやすい表現に依存し、修理中により正確な理解、分析、調整を可能にする代替の修復パラダイムの必要性を示唆している。
このギャップに対処するために、アドホックなコード編集ではなく、修復を行動特化修復として扱う仕様中心のAPR技術であるVibeRepairを提案する。
VibeRepairはまず、バグだらけのコードを構造化された振る舞い仕様に翻訳し、プログラムの意図した実行時の振る舞いをキャプチャし、次に仕様のミスアライメントを推論し、修正し、最後に修正された振る舞い仕様によって厳密にガイドされたコードを合成する。
オンデマンド推論コンポーネントは、コストを制御しながら、プログラム分析と履歴バグフィックスエビデンスでハードケースを豊かにする。
Defects4J と実世界のベンチマークと複数の LLM にまたがって、VibeRepair はパッチスペースが大幅に小さく、一貫して強い修復効率を示している。
Defects4J v1.2では、VibeRepairが174のバグを正しく修正し、最先端のベースラインを28のバグで越えた。
Defects4J v2.0では、178のバグを修復し、33のバグによる以前のアプローチよりも優れ、23%の改善を示している。
LLMのトレーニング期間終了後に収集した実世界のベンチマークの評価により,その有効性と一般化性をさらに確認した。
VibeRepairは、明示的な行動意図の修復に集中することによって、"ビブ"コーディングの時代において、APRを再編成する。
関連論文リスト
- RelRepair: Enhancing Automated Program Repair by Retrieving Relevant Code [11.74568238259256]
RelRepairは関連するプロジェクト固有のコードを取得し、プログラムの自動修復を強化する。
広く研究されている2つのデータセット、Defects4J V1.2 と ManySStuBs4J について RelRepair の評価を行った。
論文 参考訳(メタデータ) (2025-09-20T14:07:28Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Repair Ingredients Are All You Need: Improving Large Language Model-Based Program Repair via Repair Ingredients Search [41.50068103527948]
ReinFixは、バグ修正の推論と解決フェーズを通じて、修復材料を検索するフレームワークである。
ソリューションフェーズでは、ReinFixは、同様のバグパターンで過去のバグ修正から外部の要素を検索する。
2つの人気のあるベンチマークによる評価は、SOTAベースラインに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2025-06-29T06:02:11Z) - ThinkRepair: Self-Directed Automated Program Repair [11.598008952093487]
プロンプトエンジニアリングによって指示された大規模言語モデル(LLM)は、バグ修正を含む多くのタスクに対処する強力な能力に多くの注目を集めている。
本稿では,自己指向型LLMベースの自動プログラム修復であるThinkRepairについて,収集フェーズと固定フェーズの2つの主要なフェーズを提案する。
ThinkRepairと12SOTA APRを比較した2つの広く研究されているデータセット(Defects4JとQuixBugs)の評価は、バグ修正におけるThinkRepairの優先度を示している。
論文 参考訳(メタデータ) (2024-07-30T15:17:07Z) - Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。
近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。
高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文 参考訳(メタデータ) (2024-06-21T05:05:39Z) - Assessing the Latent Automated Program Repair Capabilities of Large Language Models using Round-Trip Translation [44.3761164214368]
RTT(Round-Trip Translation): あるプログラミング言語から別のプログラミング言語や自然言語にコードを翻訳する。
JavaにおけるRTT生成パッチの詳細な量的および定性的な分析を行う。
RTTはHumanEval-JavaベンチマークでGPT-4を用いた164のバグのうち100件に対して可塑性パッチを生成し,97件を手作業で評価した。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair [6.8144965833113815]
そこで我々は,APRの最適なコード表現を微調整モデルで識別する新しいプログラム修復手法であるRe repairLLaMAを提案する。
これにより、AIでバグを修正するのに非常に効果的なプログラム修復アダプタが提供される。
全体として、Re repairLLaMAは144のDefects4J v2、109のHumanEval-Java、20のGitBug-Javaバグを正しく修正する。
論文 参考訳(メタデータ) (2023-12-25T11:39:46Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。