論文の概要: Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis
- arxiv url: http://arxiv.org/abs/2511.01425v1
- Date: Mon, 03 Nov 2025 10:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.22041
- Title: Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis
- Title(参考訳): エビデンスを学習する:因果的忠実度分析による検証可能な推論エージェント
- Authors: Yuhang Huang, Zekai Lin, Fan Zhong, Lei Liu,
- Abstract要約: 医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
本稿では,対話型エージェントを提案する。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
- 参考スコア(独自算出の注目度): 10.749786847079163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explanations for AI models in high-stakes domains like medicine often lack verifiability, which can hinder trust. To address this, we propose an interactive agent that produces explanations through an auditable sequence of actions. The agent learns a policy to strategically seek external visual evidence to support its diagnostic reasoning. This policy is optimized using reinforcement learning, resulting in a model that is both efficient and generalizable. Our experiments show that this action-based reasoning process significantly improves calibrated accuracy, reducing the Brier score by 18\% compared to a non-interactive baseline. To validate the faithfulness of the agent's explanations, we introduce a causal intervention method. By masking the visual evidence the agent chooses to use, we observe a measurable degradation in its performance ($\Delta$Brier=+0.029), confirming that the evidence is integral to its decision-making process. Our work provides a practical framework for building AI systems with verifiable and faithful reasoning capabilities.
- Abstract(参考訳): 医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
そこで本研究では,対話型エージェントを提案する。
エージェントは、その診断推論を支援するために、戦略的に外部視覚的証拠を求める政策を学ぶ。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
実験の結果,この動作に基づく推論法によりキャリブレーション精度が著しく向上し,Brierのスコアが18%低下することがわかった。
エージェントの説明の忠実さを検証するために,因果介入法を導入する。
エージェントが使用する視覚的証拠を隠蔽することで、測定可能なパフォーマンス劣化($\Delta$Brier=+0.029)を観察し、その証拠が意思決定プロセスに不可欠なことを確認する。
私たちの仕事は、検証可能で忠実な推論能力を備えたAIシステムを構築するための実践的なフレームワークを提供します。
関連論文リスト
- Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation [42.38513187601995]
強化学習と検証可能な報酬で訓練された大規模言語モデル(LLM)は、複雑な推論タスクにおいて大きな成果を上げている。
最近の研究は、メタ思考エージェントが計画を提案し、進捗を監視し、推論エージェントが逐次的な会話のターンを通じてサブタスクを実行するというマルチエージェント設定にまで拡張されている。
1つのエージェントが支配的であり、もう1つのエージェントがほとんど貢献せず、コラボレーションが損なわれ、セットアップが非効率なシングルエージェントに崩壊する。
我々は、推論エージェントがノイズのある出力を破棄し、指示を集約し、推論プロセスを再起動させることで、議論を促す検証可能な報酬機構を提案する。
論文 参考訳(メタデータ) (2025-11-04T06:37:31Z) - Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent [58.90049897180927]
視覚モデルにおける視覚的特徴の意図しない依存を検出するための自動フレームワークを提案する。
自己反射エージェントは、モデルが依存する可能性のある視覚特性に関する仮説を生成し、テストする。
我々は,視覚特性の多様さを示すために設計された130モデルの新しいベンチマークに対して,我々のアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-24T17:59:02Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Improving Explainability of Disentangled Representations using
Multipath-Attribution Mappings [12.145748796751619]
下流タスク予測に解釈不能な不整合表現を利用するフレームワークを提案する。
提案手法の有効性を,総合ベンチマークスイートと2つの医療データセットで実証する。
論文 参考訳(メタデータ) (2023-06-15T10:52:29Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。