論文の概要: Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities
- arxiv url: http://arxiv.org/abs/2603.10396v1
- Date: Wed, 11 Mar 2026 04:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.777923
- Title: Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities
- Title(参考訳): 不正確な確率によるLLMの高次不確かさのバーバリゼーション
- Authors: Anita Yang, Krikamol Muandet, Michele Caprio, Siu Lun Chau, Masaki Adachi,
- Abstract要約: 1次不確実性は、プロンプトに対する可能性のある応答に対する不確実性をキャプチャし、2次不確実性は、基礎となる確率モデル自体の不確定性を定量化する。
汎用的なプロンプトと後処理の手順を導入し,不確実性の両順序を直接抽出・定量化し,その効果を多種多様な設定で示す。
- 参考スコア(独自算出の注目度): 13.14855346396444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the growing demand for eliciting uncertainty from large language models (LLMs), empirical evidence suggests that LLM behavior is not always adequately captured by the elicitation techniques developed under the classical probabilistic uncertainty framework. This mismatch leads to systematic failure modes, particularly in settings that involve ambiguous question-answering, in-context learning, and self-reflection. To address this, we propose novel prompt-based uncertainty elicitation techniques grounded in \emph{imprecise probabilities}, a principled framework for repesenting and eliciting higher-order uncertainty. Here, first-order uncertainty captures uncertainty over possible responses to a prompt, while second-order uncertainty (uncertainty about uncertainty) quantifies indeterminacy in the underlying probability model itself. We introduce general-purpose prompting and post-processing procedures to directly elicit and quantify both orders of uncertainty, and demonstrate their effectiveness across diverse settings. Our approach enables more faithful uncertainty reporting from LLMs, improving credibility and supporting downstream decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)から不確実性を引き出す需要が高まっているにもかかわらず、実証的な証拠は、LLMの挙動が古典的確率的不確実性フレームワークの下で開発されたエリケーション技術によって必ずしも適切に捉えられているわけではないことを示唆している。
このミスマッチは、特に曖昧な質問回答、コンテキスト内学習、自己修正を含む設定において、システマティックな障害モードにつながる。
そこで本稿では,高次不確かさを補うための原則的枠組みである 'emph{imprecise probabilities} を基礎とした,新規なプロンプトベースの不確実性推論手法を提案する。
ここでは、一階不確実性はプロンプトに対する可能性のある応答に対する不確実性を捉え、二階不確実性(不確実性に関する不確実性)は基礎となる確率モデル自体の不確定性を定量化する。
汎用的なプロンプトと後処理の手順を導入し,不確実性の両順序を直接抽出・定量化し,その効果を多種多様な設定で示す。
我々のアプローチは、LCMからのより忠実な不確実性報告を可能にし、信頼性を改善し、下流の意思決定を支援する。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Do not Abstain! Identify and Solve the Uncertainty [25.744791822890036]
bftextConfuseBenchは、主に文書不足、限られた能力、クエリのあいまいさの3つのタイプの不確実性に焦点を当てたベンチマークである。
実験によると、現在のLLMは不確実性の根本原因を正確に特定し、解決するのに苦労している。
まず、元のクエリの紛らわしい側面を浮き彫りにするコンテキストアウェアな問い合わせを生成します。
そして,質問の答えの特異性に基づいて不確実性の原因を判断する。
論文 参考訳(メタデータ) (2025-06-01T02:15:17Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
データ不確実性の存在下での過去の不確実性定量化手法について検討する。
以上の結果から,従来の手法はシングル・アンサー・セッティングに比べて比較的困難であったことが示唆された。
我々は,データ不確実性が存在する場合でも,エントロピーと一貫性に基づく手法がモデル不確実性を効果的に推定することを示した。
論文 参考訳(メタデータ) (2024-08-13T11:17:31Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。