論文の概要: Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2602.08520v3
- Date: Thu, 12 Feb 2026 05:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.42016
- Title: Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
- Title(参考訳): 強化推論:自己修正型言語モデル推論における不確かさの活用
- Authors: Xinhai Sun,
- Abstract要約: 強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) are often evaluated and deployed under a one-shot, greedy inference protocol, especially in professional settings that require deterministic behavior. This regime can systematically under-estimate a fixed model's true capability: many errors arise not from missing knowledge, but from premature commitment under internal ambiguity. We introduce Reinforcement Inference, an entropy-aware inference-time control strategy that uses the model's own uncertainty to selectively invoke a second, more deliberate reasoning attempt, enabling stronger performance without any retraining. On 12,032 MMLU-Pro questions across 14 subjects, using DeepSeek-v3.2 with deterministic decoding in a zero-shot setting, Reinforcement Inference improves accuracy from 60.72% to 84.03%, while only incurring 61.06% additional inference calls. A 100% re-asking ablation reaches 84.35%, indicating that uncertainty-aware selection captures most of the attainable improvement with substantially less compute. Moreover, a prompt-only ablation underperforms the baseline, suggesting that the gains are not explained by generic prompting alone. Beyond providing a practical inference-time upgrade, our results suggest a broader entropy-aware paradigm for measuring and expanding model capability: because modern decoder-based models generate outputs autoregressively, entropy and related confidence measures arise naturally as first-class control signals during generation. The resulting gap between one-pass greedy inference and uncertainty-conditioned deliberation offers a diagnostic lens on an LLM's latent reasoning horizon and motivates future training objectives that explicitly constrain correctness--confidence alignment.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、特に決定論的振る舞いを必要とするプロの設定において、一発のグレディ推論プロトコルの下で評価され、デプロイされることが多い。
この体系は、固定モデルの真の能力を体系的に過小評価することができる。多くのエラーは、知識の欠如からではなく、内部の曖昧さの下での早期のコミットメントから生じる。
モデル自体の不確実性を利用して第2の、より意図的な推論を選択的に実行し、再学習なしにより強力なパフォーマンスを実現するエントロピー対応推論時制御戦略であるReinforcement Inferenceを導入する。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは60.72%から84.03%まで精度を向上し、追加の推論コールは61.06%に留まった。
100%再割り当てアブレーションは84.35%に達し、不確実性を認識した選択は、ほぼ少ない計算で達成可能な改善のほとんどを捉えていることを示している。
さらに、プロンプトのみのアブレーションはベースラインを過小評価しており、ゲインはジェネリックプロンプトだけでは説明されないことを示唆している。
現代のデコーダベースのモデルでは, 自己回帰的, エントロピー, および関連する信頼度を生成中の一級制御信号として自然に発生するので, モデル能力の測定と拡張のために, より広範なエントロピー対応パラダイムが提案される。
結果として、一方通行の欲望推論と不確実性条件の熟考の間のギャップは、LCMの潜在推論水平線上に診断レンズを提供し、正確さを明示的に制約する将来の訓練目標を動機付けている。
関連論文リスト
- Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文 参考訳(メタデータ) (2026-02-12T08:48:51Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models [9.509429747913519]
大規模言語モデル(LLM)は、情報が漸進的に提示されるとき、多ターン会話において顕著なパフォーマンス劣化を被る。
本稿では,次のトークン分布に対するシャノンエントロピーによる内部不確かさの定量化を行うERGOを紹介する。
ERGOは言語とモデリングにおける可変性を採用し、不確実性を表現する。
論文 参考訳(メタデータ) (2025-10-15T20:33:08Z) - Guided Uncertainty Learning Using a Post-Hoc Evidential Meta-Model [3.2116198597240846]
GUIDEは,凍結したディープラーニングモデルに適応し,いつ,いつ,不確実かを明確に学習する,軽量な顕在学習メタモデルアプローチである。
GUIDEはリトレーニングもアーキテクチャの変更も必要とせず、ベースとなるディープラーニングモデルに対して手動の中間層選択も必要ありません。
さまざまなベンチマークで最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-29T09:04:15Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Discriminative Jackknife: Quantifying Uncertainty in Deep Learning via
Higher-Order Influence Functions [121.10450359856242]
我々は、モデル損失関数の影響関数を利用して、予測信頼区間のジャックニフェ(または、アウト・ワン・アウト)推定器を構築する頻繁な手順を開発する。
1)および(2)を満たすDJは、幅広いディープラーニングモデルに適用可能であり、実装が容易であり、モデルトレーニングに干渉したり、精度を妥協したりすることなく、ポストホックな方法で適用することができる。
論文 参考訳(メタデータ) (2020-06-29T13:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。