論文の概要: AdaSD: Adaptive Speculative Decoding for Efficient Language Model Inference
- arxiv url: http://arxiv.org/abs/2512.11280v1
- Date: Fri, 12 Dec 2025 04:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.660381
- Title: AdaSD: Adaptive Speculative Decoding for Efficient Language Model Inference
- Title(参考訳): AdaSD: 効率的な言語モデル推論のための適応的投機的デコーディング
- Authors: Kuan-Wei Lu, Ding-Yong Hong, Pangfeng Liu,
- Abstract要約: 大規模言語モデル(LLM)に対する適応的投機的復号法(AdaSD)を提案する。
AdaSDは推論中に生成時間と受け入れ基準を動的に調整する。
ベンチマークデータセットの実験では、AdaSDは標準の投機的復号化よりも最大49%のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 1.1852406625172216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance across a wide range of tasks, but their increasing parameter sizes significantly slow down inference. Speculative decoding mitigates this issue by leveraging a smaller draft model to predict candidate tokens, which are then verified by a larger target model. However, existing approaches often require additional training, extensive hyperparameter tuning, or prior analysis of models and tasks before deployment. In this paper, we propose Adaptive Speculative Decoding (AdaSD), a hyperparameter-free decoding scheme that dynamically adjusts generation length and acceptance criteria during inference. AdaSD introduces two adaptive thresholds: one to determine when to stop candidate token generation and another to decide token acceptance, both updated in real time based on token entropy and Jensen-Shannon distance. This approach eliminates the need for pre-analysis or fine-tuning and is compatible with off-the-shelf models. Experiments on benchmark datasets demonstrate that AdaSD achieves up to 49\% speedup over standard speculative decoding while limiting accuracy degradation to under 2\%, making it a practical solution for efficient and adaptive LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを実現しているが、パラメータの増大は推論を著しく遅くしている。
投機的復号化は、より小さなドラフトモデルを利用して候補トークンを予測することでこの問題を軽減する。
しかしながら、既存のアプローチでは、追加のトレーニング、広範なハイパーパラメータチューニング、あるいはデプロイ前のモデルとタスクの事前分析が必要になることが多い。
本稿では,パラメータを含まない高速デコーディング方式であるAdaptive Speculative Decoding (AdaSD)を提案する。
AdaSDは2つの適応しきい値を導入している。1つは、候補トークンの生成をいつ停止するかを判断し、もう1つは、トークンエントロピーとJensen-Shannon距離に基づいて、リアルタイムで更新されるトークンの受け入れを決定する。
このアプローチは、事前分析や微調整の必要性を排除し、市販のモデルと互換性がある。
ベンチマークデータセットの実験では、AdaSDは標準投機的復号化よりも最大49倍のスピードアップを実現し、精度の劣化を2倍未満に制限し、効率よく適応的なLLM推論のための実用的なソリューションであることを示した。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。