論文の概要: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.08146v3
- Date: Tue, 28 Oct 2025 10:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.151431
- Title: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
- Title(参考訳): LLM推論の信頼性信号としてのシーケンスレベルエントロピー
- Authors: Aman Sharma, Paras Chopra,
- Abstract要約: 推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する新しいエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロブからのシャノンエントロピーを信頼信号として使用し,早期停止を実現する。
エントロピーに基づく信頼度キャリブレーションは,事前学習後の最適化の創発的特性を示す。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
- Abstract(参考訳): 推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する,シンプルで斬新なエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロップからのシャノンエントロピーを信頼信号として使用し,タスク精度を維持しつつ,早期停止を実現し,25~50%の計算節約を実現している。
重要なことは、エントロピーに基づく信頼度校正は、現代の推論モデルに存在する高度な後学習最適化の創発的特性を示すが、標準命令調整および事前訓練モデル(Llama 3.3 70B)には特に欠落していることを示す。
推論を阻止するエントロピー閾値はモデルによって異なるが,既存の推論データセットのいくつかの例を用いて,ワンショットで簡単に計算できることが示される。
我々の結果は、先進的な推論モデルは、早期に正しい回答を得たことをよく知っていて、トークンの保存とレイテンシの低減のために、この突発的な自信の認識を活用できることを示している。
このフレームワークは、精度を保ちながら計算コストを25~50%削減した推論最適化モデルファミリ間で一貫した性能を示し、信頼性メカニズムが現代の学習後の推論システムとそれ以前の推論システムの区別特性を表すことを示した。
関連論文リスト
- EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation [0.0]
entropy-guided refinementは、トークンレベルの不確実性を使用して、1つのターゲットのリファインメントパスをトリガーする軽量なテスト時間ループである。
この不確実性認識ループは,シングルパス推論と高価な推論チェーンの中間点として有効であることを示す。
論文 参考訳(メタデータ) (2025-08-26T22:29:12Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。