論文の概要: Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing
- arxiv url: http://arxiv.org/abs/2604.08401v1
- Date: Thu, 09 Apr 2026 16:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.010919
- Title: Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing
- Title(参考訳): 自聴によるLLMエージェントの忠実な推論に向けて
- Authors: Wenhao Yuan, Chenchen Lin, Jian Chen, Jinfeng Xu, Xuehe Wang, Edith Cheuk Han Ngai,
- Abstract要約: 我々は,行動開始前のエージェントの内部信頼状態に対する検証を行う新しいフレームワークであるtextbfSelf-textbfAudited textbfVerified textbfReasoning (textscSAVeR)を提案する。
当社のアプローチは、競争力のあるエンドタスクのパフォーマンスを維持しながら、推論の忠実さを継続的に改善します。
- 参考スコア(独自算出の注目度): 5.497064111008921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large language model (LLM) agents, reasoning trajectories are treated as reliable internal beliefs for guiding actions and updating memory. However, coherent reasoning can still violate logical or evidential constraints, allowing unsupported beliefs repeatedly stored and propagated across decision steps, leading to systematic behavioral drift in long-horizon agentic systems. Most existing strategies rely on the consensus mechanism, conflating agreement with faithfulness. In this paper, inspired by the vulnerability of unfaithful intermediate reasoning trajectories, we propose \textbf{S}elf-\textbf{A}udited \textbf{Ve}rified \textbf{R}easoning (\textsc{SAVeR}), a novel framework that enforces verification over internal belief states within the agent before action commitment, achieving faithful reasoning. Concretely, we structurally generate persona-based diverse candidate beliefs for selection under a faithfulness-relevant structure space. To achieve reasoning faithfulness, we perform adversarial auditing to localize violations and repair through constraint-guided minimal interventions under verifiable acceptance criteria. Extensive experiments on six benchmark datasets demonstrate that our approach consistently improves reasoning faithfulness while preserving competitive end-task performance.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントでは、推論軌道は行動の導出と記憶の更新のための信頼できる内部信念として扱われる。
しかし、コヒーレント推論は論理的あるいは明白な制約に反する可能性があり、反抗的な信念が決定段階にまたがって繰り返し保存され伝播し、長い水平エージェントシステムにおける体系的な行動の漂流につながる。
既存の戦略のほとんどはコンセンサス機構に依存しており、信頼と合意を混同している。
本稿では、不信な中間推論軌跡の脆弱性に着想を得て、アクションコミットメント前のエージェントの内部的信念状態の検証を強制し、忠実な推論を実現するための新しいフレームワークである \textbf{S}elf-\textbf{A}udited \textbf{Ve}rified \textbf{R}easoning (\textsc{SAVeR})を提案する。
具体的には、忠実度関連構造空間の下で、ペルソナに基づく多様な候補信念を構造的に生成する。
根拠づけの忠実性を達成するため,検証基準下での制約誘導による最小限の介入を通じて,違反のローカライズと修復を行う。
6つのベンチマークデータセットに対する大規模な実験により、我々のアプローチは、競合するエンドタスクのパフォーマンスを維持しながら、推論の忠実さを一貫して改善することを示した。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - FaithAct: Faithfulness Planning and Acting in MLLMs [12.08093899815684]
不信心は依然として、大きな言語モデルにとって永続的な課題である。
本稿では,各主張対象が視覚的に支持されているか否かを評価することによって,ステップレベルとチェーンレベルの忠実度を定量化するFithEvalを提案する。
我々は、すべての推論ステップにおいて明らかな根拠を強制する忠実第一の計画と行動の枠組みであるFaithActを提案する。
論文 参考訳(メタデータ) (2025-11-11T16:22:49Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。