論文の概要: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.08146v1
- Date: Thu, 09 Oct 2025 12:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.066583
- Title: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
- Title(参考訳): LLM推論の信頼性信号としてのシーケンスレベルエントロピー
- Authors: Aman Sharma, Paras Chopra,
- Abstract要約: 推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する新しいエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロブからのシャノンエントロピーを信頼信号として使用し,早期停止を実現する。
エントロピーに基づく信頼度キャリブレーションは,事前学習後の最適化の創発的特性を示す。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
- Abstract(参考訳): 推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する,シンプルで斬新なエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロップからのシャノンエントロピーを信頼信号として使用し,タスク精度を維持しつつ,早期停止を実現し,25~50%の計算節約を実現している。
重要なことは、エントロピーに基づく信頼度校正は、現代の推論モデルに存在する高度な後学習最適化の創発的特性を示すが、標準命令調整および事前訓練モデル(Llama 3.3 70B)には特に欠落していることを示す。
推論を阻止するエントロピー閾値はモデルによって異なるが,既存の推論データセットのいくつかの例を用いて,ワンショットで簡単に計算できることが示される。
我々の結果は、先進的な推論モデルは、早期に正しい回答を得たことをよく知っていて、トークンの保存とレイテンシの低減のために、この突発的な自信の認識を活用できることを示している。
このフレームワークは、精度を保ちながら計算コストを25~50%削減した推論最適化モデルファミリ間で一貫した性能を示し、信頼性メカニズムが現代の学習後の推論システムとそれ以前の推論システムの区別特性を表すことを示した。
関連論文リスト
- Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation [0.0]
entropy-guided refinementは、トークンレベルの不確実性を使用して、1つのターゲットのリファインメントパスをトリガーする軽量なテスト時間ループである。
この不確実性認識ループは,シングルパス推論と高価な推論チェーンの中間点として有効であることを示す。
論文 参考訳(メタデータ) (2025-08-26T22:29:12Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。