Fugu-MT 論文翻訳(概要): How Uncertainty Estimation Scales with Sampling in Reasoning Models

論文の概要: How Uncertainty Estimation Scales with Sampling in Reasoning Models

arxiv url: http://arxiv.org/abs/2603.19118v1
Date: Thu, 19 Mar 2026 16:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.271897
Title: How Uncertainty Estimation Scales with Sampling in Reasoning Models
Title（参考訳）: 共振モデルにおけるサンプリングによる不確かさ推定方法
Authors: Maksym Del, Markus Kängsepp, Marharyta Domnich, Ardi Tampuu, Lisa Yankovskaya, Meelis Kull, Mark Fishel,
Abstract要約: 推論言語モデルのデプロイには不確実性推定が不可欠である。言語的信頼と自己整合性を用いた完全ブラックボックスアプローチとして並列サンプリングについて検討した。
参考スコア（独自算出の注目度）: 4.9496407033305525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Uncertainty estimation is critical for deploying reasoning language models, yet remains poorly understood under extended chain-of-thought reasoning. We study parallel sampling as a fully black-box approach using verbalized confidence and self-consistency. Across three reasoning models and 17 tasks spanning mathematics, STEM, and humanities, we characterize how these signals scale. Both self-consistency and verbalized confidence scale in reasoning models, but self-consistency exhibits lower initial discrimination and lags behind verbalized confidence under moderate sampling. Most uncertainty gains, however, arise from signal combination: with just two samples, a hybrid estimator improves AUROC by up to $+12$ on average and already outperforms either signal alone even when scaled to much larger budgets, after which returns diminish. These effects are domain-dependent: in mathematics, the native domain of RLVR-style post-training, reasoning models achieve higher uncertainty quality and exhibit both stronger complementarity and faster scaling than in STEM or humanities.
Abstract（参考訳）: 推論言語モデルのデプロイには不確実性推定が不可欠だが、拡張されたチェーン・オブ・シークレット推論では理解されていない。言語的信頼と自己整合性を用いた完全ブラックボックスアプローチとして並列サンプリングについて検討した。 3つの推論モデルと17のタスクにまたがる数学、STEM、人文科学において、これらの信号がどのようにスケールするかを特徴付ける。推論モデルにおける自己整合性および言語的信頼度尺度はともに異なるが、自己整合性は、適度なサンプリングの下での言語化された信頼度の背後にある低い初期識別と遅延を示す。しかし、ほとんどの不確実な利得は信号の組み合わせから生じる: たった2つのサンプルで、ハイブリッド推定器は平均でAUROCを最大$+12$改善し、さらに大きな予算にスケールしても既に信号単独よりも優れており、その後はリターンが減少する。数学では、RLVRスタイルのポストトレーニングのネイティブドメインは、推論モデルは高い不確実性を達成し、STEMや人文科学よりも強い相補性と高速なスケーリングの両方を示す。

関連論文リスト

Improving reasoning at inference time via uncertainty minimisation [1.9145422469692004]
本稿では,不確実性を最小化するための原則的戦略を提案する。提案手法は,各推論ステップにおいて,モデルの自己確実性を最大化する継続を選択する。初期段階に適用した自己確実性最大化は,性能向上のほとんどを説明することができることを示す。
論文参考訳（メタデータ） (2026-03-07T11:39:06Z)
To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文参考訳（メタデータ） (2026-02-11T08:16:13Z)
Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals [18.612081365101464]
我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。 GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
論文参考訳（メタデータ） (2026-02-03T03:40:01Z)
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文参考訳（メタデータ） (2026-01-11T06:21:13Z)
Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy [0.0]
我々は,10大言語モデル(LLM)の自己評価をシミュレートするために,10項目の総合自己効力尺度を適用した。反応は、反復的な管理とランダム化されたアイテム注文の間で非常に安定していた。モデルは条件によって異なる自己効力レベルを示し、スコアは人間の基準よりも低かった。
論文参考訳（メタデータ） (2025-11-25T03:24:11Z)
Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。 SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-09-20T17:09:14Z)
FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文参考訳（メタデータ） (2025-07-30T19:57:22Z)
Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文参考訳（メタデータ） (2025-06-05T11:47:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。