論文の概要: Agentic Code Reasoning
- arxiv url: http://arxiv.org/abs/2603.01896v1
- Date: Mon, 02 Mar 2026 14:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.904018
- Title: Agentic Code Reasoning
- Title(参考訳): エージェントコード推論
- Authors: Shubham Ugare, Satish Chandra,
- Abstract要約: エージェントが明示的な前提を構築し、実行経路をトレースし、公式な結論を導出することを要求する構造化されたプロンプト手法である半形式推論を導入する。
我々は,3つのタスク(パッチ等価性検証,フォールトローカライゼーション,コード質問応答)を評価し,半形式的推論が常に精度を向上することを示す。
これらの結果は、構造化されたエージェント推論が、実行せずに意味のある意味的コード解析を可能にすることを示す。
- 参考スコア(独自算出の注目度): 6.246212222645163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.
- Abstract(参考訳): LLMエージェントはコードベースを探索し、コードを実行せずにコードセマンティクスを推論できるだろうか?
エージェントが明示的な前提を構築し、実行経路をトレースし、正式な結論を導出する必要がある構造化されたプロンプト手法である。
構造化されていないチェーンとは異なり、半形式的推論は証明書として機能する。
我々は3つのタスク(パッチ等価性検証、フォールトローカライゼーション、コード質問応答)について評価し、半形式的推論が全てのタスクの精度を一貫して向上させることを示す。
パッチ等価性については、キュレートされた例では精度が78%から88%に向上し、実世界のエージェント生成パッチでは93%に達し、実行不要なRL報酬信号に必要な信頼性に近づいている。
RubberDuckBench Mohammad et al (2026)でのコード質問応答では、半形式推論が87%の精度を実現している。
Defects4J Just et al (2014)のフォールトローカライゼーションでは、半形式推論は標準推論よりもトップ5の精度を5ポイント向上する。
これらの結果は,構造化エージェント推論により,実行せずに意味のある意味的コード解析が可能であることを示し,RLトレーニングパイプライン,コードレビュー,静的プログラム解析の実践的応用を開拓した。
関連論文リスト
- Agentified Assessment of Logical Reasoning Agents [3.5548629490839594]
エージェント化された評価に基づいて、評価エージェントを使用してタスクを発行し、実行予算を強制し、アウトプットを解析し、構造化された障害タイプを記録します。
ケーススタディでは,FOLIOの一階述語論理(FOL)推論のための自動形式化エージェントのベンチマークを行った。
自動形式化剤は、アセスメントプロトコルの下で86.70%の精度を達成し、チェーンオブソートベースライン(73.89%)を上回っている。
論文 参考訳(メタデータ) (2026-03-03T09:26:08Z) - Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models [5.733004743054914]
大規模な推論モデル(LRM)は、強い性能を示すが、しばしば妥当に聞こえるが、真の決定過程を反映しない合理性を生み出す。
2つのテスト可能な条件で定義された忠実性を推論するための公式な枠組みを導入する。
RFEvalは、7,186インスタンスのベンチマークであり、制御された出力レベルの対実的介入を通じて忠実さを調査する。
論文 参考訳(メタデータ) (2026-02-19T03:49:37Z) - Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文 参考訳(メタデータ) (2025-12-20T03:43:02Z) - Demystifying Errors in LLM Reasoning Traces: An Empirical Study of Code Execution Simulation [7.377446354867118]
大規模言語モデル(LLM)を用いた実行時の振る舞い推定に関する最初の実証的研究を行う。
我々は4つの最先端推論LCMを評価し,9つの推論誤差の分類法を開発した。
計算カテゴリの障害をケーススタディとして,本手法が58%の誤差を補正することを示す。
論文 参考訳(メタデータ) (2025-11-28T21:29:09Z) - HERMES: Towards Efficient and Verifiable Mathematical Reasoning in LLMs [32.234133057592935]
Hermesはツール支援エージェントで、リーンシステムにおける検証段階と非公式な推論をインターリーブする。
パラメータスケールの異なる LLM を用いて,Hermes を4つの挑戦的数学的推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-11-24T04:50:18Z) - ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。
これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。
実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文 参考訳(メタデータ) (2025-10-28T16:22:54Z) - Towards Verified Code Reasoning by LLMs [6.973151264926856]
本稿では,コード推論エージェントの回答を自動的に検証する手法について述べる。
本手法は, エージェントの応答の形式的表現を抽出し, その後, 形式的検証とプログラム解析ツールを用いて構成する。
論文 参考訳(メタデータ) (2025-09-30T17:17:51Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。