論文の概要: Agentic Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2601.15703v1
- Date: Thu, 22 Jan 2026 07:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.519838
- Title: Agentic Uncertainty Quantification
- Title(参考訳): エージェント不確かさ定量化
- Authors: Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
- 参考スコア(独自算出の注目度): 76.94013626702183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although AI agents have demonstrated impressive capabilities in long-horizon reasoning, their reliability is severely hampered by the ``Spiral of Hallucination,'' where early epistemic errors propagate irreversibly. Existing methods face a dilemma: uncertainty quantification (UQ) methods typically act as passive sensors, only diagnosing risks without addressing them, while self-reflection mechanisms suffer from continuous or aimless corrections. To bridge this gap, we propose a unified Dual-Process Agentic UQ (AUQ) framework that transforms verbalized uncertainty into active, bi-directional control signals. Our architecture comprises two complementary mechanisms: System 1 (Uncertainty-Aware Memory, UAM), which implicitly propagates verbalized confidence and semantic explanations to prevent blind decision-making; and System 2 (Uncertainty-Aware Reflection, UAR), which utilizes these explanations as rational cues to trigger targeted inference-time resolution only when necessary. This enables the agent to balance efficient execution and deep deliberation dynamically. Extensive experiments on closed-loop benchmarks and open-ended deep research tasks demonstrate that our training-free approach achieves superior performance and trajectory-level calibration. We believe this principled framework AUQ represents a significant step towards reliable agents.
- Abstract(参考訳): 長期的な推論においてAIエージェントは印象的な能力を示してきたが、その信頼性は早期のてんかんエラーが不可逆的に伝播する「幻覚の精神」によって著しく妨げられている。
既存の方法はジレンマに直面している: 不確実性定量化(UQ)法は一般的に受動的センサーとして機能し、対処せずにリスクを診断する。
このギャップを埋めるために、言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
これにより、エージェントは効率的な実行と深い熟考を動的にバランスさせることができる。
クローズドループベンチマークとオープンエンドディープリサーチタスクに関する大規模な実験は、我々のトレーニングフリーアプローチが優れた性能と軌道レベルのキャリブレーションを実現することを実証している。
私たちは、この原則化されたフレームワークAUQが信頼性のあるエージェントへの重要な一歩だと信じています。
関連論文リスト
- BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs [0.4115305983711515]
大規模言語モデル(LLM)のための自己修正フレームワークを開発する。
最終回答の正しさのみに頼るのではなく、細かな不確実性信号を利用する。
我々は不当な高信頼とエントロピースパイクをペナル化する複合報酬関数を設計する。
論文 参考訳(メタデータ) (2025-11-19T23:09:26Z) - Towards Adversarial Robustness and Uncertainty Quantification in DINOv2-based Few-Shot Anomaly Detection [6.288045889067255]
DINOv2のような基礎モデルは、数発の異常検出において強い性能を示している。
本研究は, 敵攻撃と不確実性評価に関する最初の体系的研究である。
生の異常スコアは校正が不十分で、信頼性と正しさのギャップが明らかになり、安全クリティカルな使用が制限されることがわかりました。
論文 参考訳(メタデータ) (2025-10-15T15:06:45Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [129.79394562739705]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。
本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。
4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文 参考訳(メタデータ) (2025-05-26T14:28:37Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification [8.213390074932132]
本稿では, 深層学習領域と異なる不確実性定量化手法を, 安全クリティカルな誤動作の予測試験のために評価する。
車両が実施する不確実性スコアは、高い不確実性スコアがサポートされていない実行条件を示すという直感に従って計算する。
本研究では,MC-DropoutとDeep Ensemblesの2つの不確実な定量化手法,すなわち,誤動作回避のための有効性と計算オーバーヘッドの評価を行った。
論文 参考訳(メタデータ) (2024-04-29T10:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。