論文の概要: Certain but not Probable? Differentiating Certainty from Probability in LLM Token Outputs for Probabilistic Scenarios
- arxiv url: http://arxiv.org/abs/2511.00620v1
- Date: Sat, 01 Nov 2025 16:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.867026
- Title: Certain but not Probable? Differentiating Certainty from Probability in LLM Token Outputs for Probabilistic Scenarios
- Title(参考訳): LLM Token Outputs for Probabilistic Scenariosにおける確率と確率の差別化
- Authors: Autumn Toney-Wails, Ryan Wails,
- Abstract要約: 確率確率的シナリオにおけるトークンの確実性と理論的確率分布との整合性について検討する。
本研究では,(1)シナリオ制約に対する応答妥当性,(2)トークンレベルの出力確率と理論的確率の一致の2つの次元を測る。
以上の結果から,両モデルが全てのプロンプトシナリオにおいて完全なドメイン内応答精度を達成する一方で,トークンレベルの確率とエントロピー値は対応する理論分布から常に分岐することがわかった。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable uncertainty quantification (UQ) is essential for ensuring trustworthy downstream use of large language models, especially when they are deployed in decision-support and other knowledge-intensive applications. Model certainty can be estimated from token logits, with derived probability and entropy values offering insight into performance on the prompt task. However, this approach may be inadequate for probabilistic scenarios, where the probabilities of token outputs are expected to align with the theoretical probabilities of the possible outcomes. We investigate the relationship between token certainty and alignment with theoretical probability distributions in well-defined probabilistic scenarios. Using GPT-4.1 and DeepSeek-Chat, we evaluate model responses to ten prompts involving probability (e.g., roll a six-sided die), both with and without explicit probability cues in the prompt (e.g., roll a fair six-sided die). We measure two dimensions: (1) response validity with respect to scenario constraints, and (2) alignment between token-level output probabilities and theoretical probabilities. Our results indicate that, while both models achieve perfect in-domain response accuracy across all prompt scenarios, their token-level probability and entropy values consistently diverge from the corresponding theoretical distributions.
- Abstract(参考訳): 信頼性のある不確実性定量化(UQ)は、特に意思決定支援やその他の知識集約型アプリケーションにデプロイされる場合、大規模言語モデルの信頼性の高い下流使用を保証するために不可欠である。
モデルの確実性はトークンロジットから推定することができ、導出確率とエントロピー値によって、プロンプトタスクのパフォーマンスに関する洞察を提供する。
しかし、トークン出力の確率は、可能な結果の理論的確率と一致することが期待される確率論的シナリオでは、このアプローチは不十分である。
確率確率的シナリオにおけるトークンの確実性と理論的確率分布との整合性について検討する。
GPT-4.1 と DeepSeek-Chat を用いて、確率を含む10のプロンプトに対するモデル応答(例: 6面ダイ)を、プロンプトにおける明示的な確率キュー(例: 6面ダイをロールする)とともに評価する。
本研究では,(1)シナリオ制約に対する応答妥当性,(2)トークンレベルの出力確率と理論的確率の一致の2つの次元を測る。
以上の結果から,両モデルが全てのプロンプトシナリオにおいて完全なドメイン内応答精度を達成する一方で,トークンレベルの確率とエントロピー値は対応する理論分布から常に分岐することがわかった。
関連論文リスト
- Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。
我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。
経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文 参考訳(メタデータ) (2025-09-12T22:58:05Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - Recovering Event Probabilities from Large Language Model Embeddings via Axiomatic Constraints [4.029252551781513]
拡張変分オートエンコーダにより学習された潜在空間において、確率論の加法則のような公理的制約を強制することを提案する。
このアプローチは、VAEがオリジナルの埋め込みを再構築し、意味的に関連するイベントの埋め込みを予測することから、イベント確率が潜時空間に自然に現れることを可能にする。
論文 参考訳(メタデータ) (2025-05-10T19:04:56Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Reconciling Individual Probability Forecasts [78.0074061846588]
データに同意する2つの当事者は、個々の確率をモデル化する方法に異を唱えることができない。
個々の確率は不可知であるが、計算的かつデータ効率のよいプロセスで競合できると結論付ける。
論文 参考訳(メタデータ) (2022-09-04T20:20:35Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Handling Epistemic and Aleatory Uncertainties in Probabilistic Circuits [18.740781076082044]
確率的推論の大規模クラスを扱うアプローチの背後にある独立性の仮定を克服する手法を提案する。
ベイズ学習のアルゴリズムは、完全な観察にもかかわらず、スパースから提供します。
そのような回路の各リーフは、不確実な確率を表すエレガントなフレームワークを提供するベータ分散ランダム変数でラベル付けされています。
論文 参考訳(メタデータ) (2021-02-22T10:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。