論文の概要: UProp: Investigating the Uncertainty Propagation of LLMs in Multi-Step Agentic Decision-Making
- arxiv url: http://arxiv.org/abs/2506.17419v1
- Date: Fri, 20 Jun 2025 18:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.407221
- Title: UProp: Investigating the Uncertainty Propagation of LLMs in Multi-Step Agentic Decision-Making
- Title(参考訳): UProp:マルチステップエージェント意思決定におけるLDMの不確実性伝播の検討
- Authors: Jinhao Duan, James Diffenderfer, Sandeep Madireddy, Tianlong Chen, Bhavya Kailkhura, Kaidi Xu,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定を含む安全クリティカルなアプリケーションに統合される。
既存のLLM Uncertainty Quantification (UQ) 法は、主にシングルターン質問応答形式のために設計されている。
LLMシーケンシャルな決定の不確かさを2つの部分に分解する原理的情報理論フレームワークを導入する。
- 参考スコア(独自算出の注目度): 47.64013151246807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are integrated into safety-critical applications involving sequential decision-making in the real world, it is essential to know when to trust LLM decisions. Existing LLM Uncertainty Quantification (UQ) methods are primarily designed for single-turn question-answering formats, resulting in multi-step decision-making scenarios, e.g., LLM agentic system, being underexplored. In this paper, we introduce a principled, information-theoretic framework that decomposes LLM sequential decision uncertainty into two parts: (i) internal uncertainty intrinsic to the current decision, which is focused on existing UQ methods, and (ii) extrinsic uncertainty, a Mutual-Information (MI) quantity describing how much uncertainty should be inherited from preceding decisions. We then propose UProp, an efficient and effective extrinsic uncertainty estimator that converts the direct estimation of MI to the estimation of Pointwise Mutual Information (PMI) over multiple Trajectory-Dependent Decision Processes (TDPs). UProp is evaluated over extensive multi-step decision-making benchmarks, e.g., AgentBench and HotpotQA, with state-of-the-art LLMs, e.g., GPT-4.1 and DeepSeek-V3. Experimental results demonstrate that UProp significantly outperforms existing single-turn UQ baselines equipped with thoughtful aggregation strategies. Moreover, we provide a comprehensive analysis of UProp, including sampling efficiency, potential applications, and intermediate uncertainty propagation, to demonstrate its effectiveness. Codes will be available at https://github.com/jinhaoduan/UProp.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実の世界におけるシーケンシャルな意思決定を伴う安全クリティカルなアプリケーションに統合されるため、LLM決定をいつ信頼するかを知ることが不可欠である。
既存のLLM Uncertainty Quantification (UQ) 法は、主にシングルターンの質問応答形式のために設計されており、その結果、LLMエージェントシステムのような多段階の意思決定シナリオが過小評価されている。
本稿では,LLMの逐次決定の不確かさを2つの部分に分解する原理的情報理論フレームワークを紹介する。
一 既存のUQ手法に焦点をあてた現在の決定に固有の内部不確実性
二 外部不確実性、先行決定からどれだけの不確実性を継承すべきかを記載した相互情報(MI)量
次に、MIの直接推定を複数のトラジェクトリ依存決定プロセス(TDP)上でのPMI(Pointwise Mutual Information)の推定に変換する、効率的で効果的な外部不確実性推定器であるUPropを提案する。
UPropは、Eg、AgentBench、HotpotQAといった多段階の意思決定ベンチマークで評価され、最先端のLCM、eg、GPT-4.1、DeepSeek-V3で評価されている。
実験結果から、UPropは、思慮深い集約戦略を備えた既存の単一ターンUQベースラインを著しく上回っていることが示された。
さらに, サンプリング効率, 潜在的な応用, 中間不確実性伝播などを含むUPropの包括的解析を行い, その効果を実証する。
コードはhttps://github.com/jinhaoduan/UProp.comから入手できる。
関連論文リスト
- Uncertainty Quantification of Large Language Models through Multi-Dimensional Responses [4.505944978127014]
セマンティック・ナレッジ・アウェア・類似性分析を統合した多次元UQフレームワークを提案する。
このアプローチは、意味と知識の両方の次元から重なり合う情報を分離し、意味のバリエーションと事実の一貫性の両方をキャプチャする。
実験により,本手法は不確かさを識別する既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-24T04:05:08Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal [21.342265570934995]
既存の手法はMLLMの信頼性を高める手段としての拒絶応答の重要性をほとんど見落としてきた。
InBoL(Information Boundary-Aware Learning Framework)は,MLLMが不十分な情報に遭遇する際のユーザクエリの応答を拒否する,新たなアプローチである。
このフレームワークでは、包括的なデータ生成パイプラインと、適切な拒絶応答を提供するモデルの能力を改善するためのトレーニング戦略が導入された。
論文 参考訳(メタデータ) (2024-12-15T14:17:14Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。