論文の概要: Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2602.08520v1
- Date: Mon, 09 Feb 2026 11:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.187906
- Title: Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
- Title(参考訳): 強化推論:自己修正型言語モデル推論における不確かさの活用
- Authors: Xinhai Sun,
- Abstract要約: 強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは60.72%から84.03%まで精度を向上し、追加の推論コールは61.06%に留まった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) are often evaluated and deployed under a \emph{one-shot, greedy} inference protocol, especially in professional settings that require deterministic behavior. This regime can systematically under-estimate a fixed model's true capability: many errors arise not from missing knowledge, but from premature commitment under internal ambiguity. We introduce \emph{Reinforcement Inference}, an entropy-aware inference-time control strategy that uses the model's own uncertainty to selectively invoke a second, more deliberate reasoning attempt, enabling stronger performance \emph{without any retraining}. On 12,032 MMLU-Pro questions across 14 subjects, using DeepSeek-v3.2 with deterministic decoding in a zero-shot setting, Reinforcement Inference improves accuracy from 60.72\% to 84.03\%, while only incurring 61.06\% additional inference calls. A 100\% re-asking ablation reaches 84.35\%, indicating that uncertainty-aware selection captures most of the attainable improvement with substantially less compute. Moreover, a \emph{prompt-only} ablation underperforms the baseline, suggesting that the gains are not explained by generic `` your output had high entropy, think step-by-step'' prompting alone. Beyond providing a practical inference-time upgrade, our results suggest a broader \emph{entropy-aware} paradigm for measuring and expanding model capability: because modern decoder-based models generate outputs autoregressively, entropy and related confidence measures arise naturally as first-class control signals during generation. The resulting gap between one-pass greedy inference and uncertainty-conditioned deliberation offers a diagnostic lens on an LLM's latent reasoning horizon and motivates future training objectives that explicitly constrain correctness--confidence alignment.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、特に決定論的振る舞いを必要とするプロの設定において、emph{one-shot, greedy}推論プロトコルで評価され、デプロイされることが多い。
この体系は、固定モデルの真の能力を体系的に過小評価することができる。多くのエラーは、知識の欠如からではなく、内部の曖昧さの下での早期のコミットメントから生じる。
モデル自体の不確実性を利用して第2の、より意図的な推論試行を選択的に実行し、より強力な性能である「emph{without any retraining}」を実現するエントロピー対応の推論時制御戦略である「emph{Reinforcement Inference}」を導入する。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは60.72\%から84.03\%まで精度を向上し、追加の推論コールは61.06\%である。
100\%の再吸収アブレーションは84.35\%に達し、不確実性を認識した選択は、ほぼ少ない計算で達成可能な改善のほとんどを捉えていることを示している。
さらに、 'emph{prompt-only} アブレーションはベースラインを過小評価しており、ゲインはジェネリック `` によって説明されず、出力は高いエントロピーを持ち、ステップバイステップ' のプロンプトだけでは説明できないことを示唆している。
現代のデコーダベースのモデルがアウトプットを自動回帰的に生成するので、エントロピーおよび関連する信頼度は、生成中の第一級制御信号として自然に発生する。
結果として、一方通行の欲望推論と不確実性条件の熟考の間のギャップは、LCMの潜在推論水平線上に診断レンズを提供し、正確さを明示的に制約する将来の訓練目標を動機付けている。
関連論文リスト
- ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models [9.509429747913519]
大規模言語モデル(LLM)は、情報が漸進的に提示されるとき、多ターン会話において顕著なパフォーマンス劣化を被る。
本稿では,次のトークン分布に対するシャノンエントロピーによる内部不確かさの定量化を行うERGOを紹介する。
ERGOは言語とモデリングにおける可変性を採用し、不確実性を表現する。
論文 参考訳(メタデータ) (2025-10-15T20:33:08Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。