論文の概要: Enhancing Program Repair with Specification Guidance and Intermediate Behavioral Signals
- arxiv url: http://arxiv.org/abs/2604.11770v1
- Date: Mon, 13 Apr 2026 17:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.726964
- Title: Enhancing Program Repair with Specification Guidance and Intermediate Behavioral Signals
- Title(参考訳): 仕様ガイダンスと中間行動信号によるプログラム修復の促進
- Authors: Minh Le-Anh, Cuong Chi Le, Tien N. Nguyen,
- Abstract要約: SpecTuneは、自動プログラム修復のための仕様ガイダンスデバッグフレームワークである。
修復作業は、実行チェックポイントによって接続された疑わしい領域に分解される。
観察された行動と意図された行動のミスマッチを示す信号を生成する。
- 参考スコア(独自算出の注目度): 9.552020178028576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Program Repair (APR) has recently benefited from large language models (LLMs). However, most LLM-based APR approaches still rely primarily on coarse end-to-end signals from test-suite outcomes to guide repair, providing limited insight into where a program's internal logic deviates from its intended behavior. In contrast, human debugging often relies on intermediate reasoning about program states through localized correctness conditions or assertions. Inspired by this observation, we propose SpecTune, a specification-guided debugging framework that incorporates intermediate behavioral reasoning into APR. SpecTune decomposes the repair task into suspicious regions connected by execution checkpoints and derives localized postconditions representing expected program behaviors at those points. By executing the buggy program and evaluating these postconditions, SpecTune produces micro-level debugging signals that indicate mismatches between observed and intended behaviors, enabling more precise fault localization and targeted patch generation. To address the potential unreliability of LLM-generated postconditions, we introduce two complementary signals: a specification validation signal alpha, which estimates the consistency of generated postconditions using partially passing test cases, and a discriminative signal beta, which detects violations of validated postconditions during execution. With these signals, SpecTune safely leverages automatically generated specifications for APR. Experimental results show that SpecTune improves fault localization and APR effectiveness than the baselines.
- Abstract(参考訳): 自動プログラム修復(APR)は、最近、大きな言語モデル(LLM)の恩恵を受けている。
しかしながら、ほとんどのLCMベースのAPRアプローチは、プログラムの内部ロジックが意図した振る舞いから逸脱する場所について限定的な洞察を与えるため、テストスイートの結果からの粗いエンドツーエンドのシグナルを主に頼りにしている。
対照的に、ヒューマンデバッギングは、ローカライズされた正当性条件やアサーションを通じて、プログラム状態に関する中間的推論に依存することが多い。
この観察から着想を得たSpecTuneは,中間動作推論をAPRに組み込んだ仕様誘導デバッグフレームワークである。
SpecTuneは、修復タスクを実行チェックポイントによって接続された疑わしい領域に分解し、それらのポイントで期待されるプログラム動作を表す局所的な後条件を導出する。
バグギープログラムを実行し、これらのポスト条件を評価することで、SpecTuneは観察された動作と意図した動作のミスマッチを示すマイクロレベルのデバッグ信号を生成し、より正確なフォールトローカライゼーションとターゲットのパッチ生成を可能にする。
LLM生成後条件の潜在的な不確実性に対処するために、部分的にパスしたテストケースを用いて生成された後条件の一貫性を推定する仕様検証信号αと、実行中に検証後条件の違反を検出する識別信号βの2つの補完信号を導入する。
これらの信号を使って、SpecTuneは自動的に生成されたAPR仕様を安全に活用する。
実験結果から,SpecTuneは断層の局所化とAPRの有効性をベースラインよりも向上することが示された。
関連論文リスト
- Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs [13.488544043942495]
本研究の目的は、コード生成中に論理的妥当性を予測可能な内部デオード可能な信号が、モデル内のニューラルダイナミクスで符号化されているかどうかを検討することである。
複雑な残留流を分解することにより,音の推論と論理的失敗を区別する構造的シグネチャを同定することを目的とする。
Python、C++、Javaでの分析では、固有の正当性信号が多様な構文で堅牢であることが確認されている。
論文 参考訳(メタデータ) (2026-02-06T03:49:15Z) - Adaptive Hierarchical Evaluation of LLMs and SAST tools for CWE Prediction in Python [1.0026496861838445]
脆弱性検出のための大規模言語モデルを評価する最初の関数レベルのPythonベンチマークを示す。
ALPHAはオーバージェネレーション、オーバースペクテーション、およびサイドエラーを区別する。
LLMはSASTよりかなり優れているが,SASTは検出時に高い精度を示す。
論文 参考訳(メタデータ) (2026-01-04T01:13:37Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。