論文の概要: Towards Verified Code Reasoning by LLMs
- arxiv url: http://arxiv.org/abs/2509.26546v1
- Date: Tue, 30 Sep 2025 17:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.635078
- Title: Towards Verified Code Reasoning by LLMs
- Title(参考訳): LLMによるコード推論の検証に向けて
- Authors: Meghana Sistla, Gogul Balakrishnan, Pat Rondon, José Cambronero, Michele Tufano, Satish Chandra,
- Abstract要約: 本稿では,コード推論エージェントの回答を自動的に検証する手法について述べる。
本手法は, エージェントの応答の形式的表現を抽出し, その後, 形式的検証とプログラム解析ツールを用いて構成する。
- 参考スコア(独自算出の注目度): 6.973151264926856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LLM-based agents are able to tackle a wide variety of code reasoning questions, the answers are not always correct. This prevents the agent from being useful in situations where high precision is desired: (1) helping a software engineer understand a new code base, (2) helping a software engineer during code review sessions, and (3) ensuring that the code generated by an automated code generation system meets certain requirements (e.g. fixes a bug, improves readability, implements a feature). As a result of this lack of trustworthiness, the agent's answers need to be manually verified before they can be trusted. Manually confirming responses from a code reasoning agent requires human effort and can result in slower developer productivity, which weakens the assistance benefits of the agent. In this paper, we describe a method to automatically validate the answers provided by a code reasoning agent by verifying its reasoning steps. At a very high level, the method consists of extracting a formal representation of the agent's response and, subsequently, using formal verification and program analysis tools to verify the agent's reasoning steps. We applied this approach to a benchmark set of 20 uninitialized variable errors detected by sanitizers and 20 program equivalence queries. For the uninitialized variable errors, the formal verification step was able to validate the agent's reasoning on 13/20 examples, and for the program equivalence queries, the formal verification step successfully caught 6/8 incorrect judgments made by the agent.
- Abstract(参考訳): LLMベースのエージェントは、様々なコード推論問題に取り組むことができるが、答えは常に正しいとは限らない。
1) ソフトウェアエンジニアが新しいコードベースを理解するのを助けること(2) コードレビューセッション中にソフトウェアエンジニアを助けること(3) 自動コード生成システムによって生成されたコードが特定の要件を満たすことを保証すること(例えば、バグを修正し、可読性を改善し、機能を実装すること)。
この信頼性の欠如の結果として、エージェントの回答は信頼される前に手作業で検証される必要がある。
コード推論エージェントからの応答を手動で確認するには、人間の努力が必要であり、結果として開発者の生産性が遅くなり、エージェントの補助効果が低下する可能性がある。
本稿では,コード推論エージェントの回答を自動的に検証する手法について述べる。
非常に高いレベルでは、エージェントの応答の正式な表現を抽出し、その後、正式な検証とプログラム解析ツールを使用してエージェントの推論ステップを検証する。
本手法を,サニタイザによって検出された20の未初期化変数エラーと20のプログラム等価クエリのベンチマークセットに適用した。
初期化されていない変数エラーに対して、正式な検証ステップは、13/20例でエージェントの推論を検証することができ、プログラムの等価クエリに対して、正式な検証ステップは、エージェントによってなされた6/8の誤判定をうまくキャッチした。
関連論文リスト
- Agentified Assessment of Logical Reasoning Agents [3.5548629490839594]
エージェント化された評価に基づいて、評価エージェントを使用してタスクを発行し、実行予算を強制し、アウトプットを解析し、構造化された障害タイプを記録します。
ケーススタディでは,FOLIOの一階述語論理(FOL)推論のための自動形式化エージェントのベンチマークを行った。
自動形式化剤は、アセスメントプロトコルの下で86.70%の精度を達成し、チェーンオブソートベースライン(73.89%)を上回っている。
論文 参考訳(メタデータ) (2026-03-03T09:26:08Z) - Agentic Code Reasoning [6.246212222645163]
エージェントが明示的な前提を構築し、実行経路をトレースし、公式な結論を導出することを要求する構造化されたプロンプト手法である半形式推論を導入する。
我々は,3つのタスク(パッチ等価性検証,フォールトローカライゼーション,コード質問応答)を評価し,半形式的推論が常に精度を向上することを示す。
これらの結果は、構造化されたエージェント推論が、実行せずに意味のある意味的コード解析を可能にすることを示す。
論文 参考訳(メタデータ) (2026-03-02T14:17:06Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - AutoCodeSherpa: Symbolic Explanations in AI Coding Agents [10.706082274730734]
大きな言語モデル(LLM)エージェントは、特定のタスクを達成するために、1つ以上のLLMの上に外部ツールを自律的に使用する。
近年,ソフトウェア工学タスクのLLMエージェントが普及している。
これはAutoCodeRoverやSpecRoverといった、プログラムの自動修復を実行する既存のエージェントAIソリューションによって実証されている。
論文 参考訳(メタデータ) (2025-07-30T06:34:02Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。