論文の概要: Quantifying and Understanding Uncertainty in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.13395v1
- Date: Wed, 15 Apr 2026 01:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.348836
- Title: Quantifying and Understanding Uncertainty in Large Reasoning Models
- Title(参考訳): 大規模推論モデルにおける不確かさの定量化と理解
- Authors: Yangyi Li, Chenxu Zhao, Mengdi Huai,
- Abstract要約: 大規模推論モデル (LRM) は近年, 複雑な推論の大幅な改善が示されている。
従来の手法では推論・答え生成に対する有限サンプル保証は提供されていない。
本稿では,統計的保証を伴う推論・問合せ構造における不確実性を定量化する手法を提案する。
- 参考スコア(独自算出の注目度): 27.43500555438408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have recently demonstrated significant improvements in complex reasoning. While quantifying generation uncertainty in LRMs is crucial, traditional methods are often insufficient because they do not provide finite-sample guarantees for reasoning-answer generation. Conformal prediction (CP) stands out as a distribution-free and model-agnostic methodology that constructs statistically rigorous uncertainty sets. However, existing CP methods ignore the logical connection between the reasoning trace and the final answer. Additionally, prior studies fail to interpret the origins of uncertainty coverage for LRMs as they typically overlook the specific training factors driving valid reasoning. Notably, it is challenging to disentangle reasoning quality from answer correctness when quantifying uncertainty, while simultaneously establishing theoretical guarantees for computationally efficient explanation methods. To address these challenges, we first propose a novel methodology that quantifies uncertainty in the reasoning-answer structure with statistical guarantees. Subsequently, we develop a unified example-to-step explanation framework using Shapley values that identifies a provably sufficient subset of training examples and their key reasoning steps to preserve the guarantees. We also provide theoretical analyses of our proposed methods. Extensive experiments on challenging reasoning datasets verify the effectiveness of the proposed methods.
- Abstract(参考訳): 大規模推論モデル (LRM) は近年, 複雑な推論の大幅な改善が示されている。
LRMにおける生成の不確実性の定量化は重要であるが、従来の手法では推論・答え生成のための有限サンプル保証を提供していないため、しばしば不十分である。
コンフォーマル予測(CP)は、統計的に厳密な不確実性集合を構成する分布自由でモデルに依存しない方法論として際立っている。
しかし、既存のCP手法は、推論トレースと最終回答の間の論理的接続を無視する。
さらに、従来の研究では、有効な推論を駆動する特定のトレーニング要因を見落としているため、LEMに対する不確実性カバレッジの起源を解釈できない。
特に、不確実性を定量化する際には、解答の正しさから推論品質を解き放つことは困難であり、同時に計算効率の良い説明法の理論的保証を確立することは困難である。
これらの課題に対処するために,まず統計的保証を伴う推論・回答構造の不確かさを定量化する手法を提案する。
その後,Shapley値を用いた一貫したサンプル・ツー・ステップの説明フレームワークを開発し,トレーニング例の証明可能なサブセットと,保証を守るための重要な推論ステップを同定する。
また,提案手法の理論的解析を行った。
挑戦的推論データセットに関する大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- Adaptive Uncertainty-Aware Tree Search for Robust Reasoning [30.006968507593452]
推論時間推論は、複雑な問題解決においてLarge Language Models (LLMs) の機能を向上させる。
プロセス・リワード・モデル (Process Reward Models, PRM) による外部探索が主流である。
我々は, PRMsが, 分布外サンプル(OOD)に対して高い不確実性を示し, 信頼できないスコアを示した経験的証拠を提供する。
そこで我々は,標準探索が線形後悔の蓄積を引き起こす一方で,不確実性認識戦略がサブ線形後悔を達成できることを示す理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-02-06T08:40:05Z) - ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition [0.12489632787815884]
Time Series Foundation Models (TSFMs) はゼロショット財務予測のための有望なアプローチとして登場した。
現在のアプローチでは、制限的な分布仮定に依存したり、異なる不確実性の源を詳述したり、原則化された校正機構が欠如している。
本稿では,Deep Evidential Regression (DER) を利用した変圧器を用いた新しい確率的フレームワーク ProbFM を提案する。
論文 参考訳(メタデータ) (2026-01-15T17:02:06Z) - Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Model-free generalized fiducial inference [0.0]
等角予測(CP)は有限サンプル確率予測を保証するために開発された。
CPアルゴリズムは、不確実性定量化に対する比較的汎用的なアプローチであり、有限サンプル保証は、汎用性に欠ける。
本稿では,不正確な確率論から,CPと一般化フィデューシャル(GF)推論の間の公式な接続を構築するためのツールを提案する。
論文 参考訳(メタデータ) (2023-07-24T01:58:48Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。