論文の概要: Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.23765v1
- Date: Mon, 29 Dec 2025 00:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.149783
- Title: Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning
- Title(参考訳): LLM推論の改善に向けてのエントロピーを考慮した投機的復号法
- Authors: Tiancheng Su, Meicong Zhang, Guoxiu He,
- Abstract要約: 投機的復号(SD)は、小さなドラフトモデルを用いて大言語モデル(LLM)推論を加速する。
トレーニング不要な拡張であるEASD(Entropy-Aware Speculative Decoding)を提案する。
- 参考スコア(独自算出の注目度): 3.6588919376939733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) accelerates large language model (LLM) reasoning by using a small draft model to generate candidate tokens, which the target LLM either accepts directly or regenerates upon rejection. However, excessive alignment between the draft and target models constrains SD to the performance of the target LLM. To address this limitation, we propose Entropy-Aware Speculative Decoding (EASD), a training-free enhancement. Building on standard SD, EASD incorporates a dynamic entropy-based penalty. At each decoding step, we employ the entropy of the sampling distribution to quantify model uncertainty. When both models exhibit high entropy with substantial overlap among their top-N predictions, the corresponding token is rejected and re-sampled by the target LLM. This penalty prevents low-confidence errors from propagating. By incorporating draft-model verification, EASD enables the possibility of surpassing the target model's inherent performance. Experiments across multiple reasoning benchmarks demonstrate that EASD consistently outperforms existing SD methods and, in most cases, surpasses the target LLM itself. We further prove that the efficiency of EASD is comparable to that of SD. The code can be found in the Supplementary Materials.
- Abstract(参考訳): 投機的復号法(SD: Speculative decoding)は、小さなドラフトモデルを用いて大きな言語モデル(LLM)推論を加速し、候補トークンを生成する。
しかしながら、ドラフトモデルとターゲットモデルとの過剰なアライメントは、ターゲットLLMの性能にSDを制約する。
この制限に対処するために、トレーニング不要の拡張であるEntropy-Aware Speculative Decoding (EASD)を提案する。
EASDは標準SD上に構築されており、ダイナミックエントロピーベースのペナルティが組み込まれている。
各デコーディングステップでは,サンプル分布のエントロピーを用いてモデルの不確実性を定量化する。
両方のモデルがトップN予測に大きく重なり合う高いエントロピーを示す場合、対応するトークンは、ターゲットLLMによって拒否され、再サンプリングされる。
この罰は、低信頼の誤りが伝播するのを防ぐ。
ドラフトモデル検証を組み込むことで、EASDはターゲットモデル固有の性能を超えることができる。
複数の推論ベンチマークによる実験では、EASDは既存のSDメソッドよりも一貫して優れており、ほとんどの場合、ターゲットのLSMよりも優れていることが示されている。
さらに、EASD の効率が SD の効率に匹敵することを示した。
コードは Supplementary Materials に記載されている。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding [8.36763119650407]
投機的検証は投機精度を動的に予測し、検証長を適用してスループットを最大化する。
SD性能を最大2$times$まで改善し、大容量設定では平均1.4$times$になる。
論文 参考訳(メタデータ) (2025-09-29T06:25:54Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。