論文の概要: Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match
- arxiv url: http://arxiv.org/abs/2511.22972v1
- Date: Fri, 28 Nov 2025 08:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.818345
- Title: Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match
- Title(参考訳): トレーニング不要な投機的デコード:厳密な整合性を超えた正確なドラフトを受け入れる
- Authors: Jinze Li, Yixing Xu, Guanchen Li, Shuo Yang, Jinfeng Xu, Xuanwu Yin, Dong Li, Edith C. H. Ngai, Emad Barsoum,
- Abstract要約: 訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 21.810129153556044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance across diverse tasks but suffer from high inference latency due to their autoregressive generation. Speculative Decoding (SPD) mitigates this issue by verifying candidate tokens in parallel from a smaller draft model, yet its strict exact-match verification discards many semantically valid continuations. Moreover, existing training-based SPD methods often suffer from performance degradation on out-of-distribution (OOD) tasks. To this end, we propose Training-Free Loosely Speculative Decoding (FLy), a novel method that loosens the rigid verification criterion by leveraging the target model's self-corrective behavior to judge whether a draft-target mismatch remains semantically valid. FLy introduces a two-tier mechanism: an entropy-level gate that identifies whether the current token allows multiple plausible alternatives or is nearly deterministic, and a token-level deferred window that distinguishes genuine errors from differently worded yet semantically correct variants. To further reduce latency, we design a multi-level acceleration strategy that accelerates not only the target model but also the drafter itself. Owing to its training-free design, FLy composes seamlessly with arbitrary draft-target pairs and generalizes across models and domains without hyperparameter re-tuning. Experiments show that FLy preserves more than 99% of the target model's accuracy while achieving an average 2.81x speedup on Llama-3.1-70B-Instruct and 5.07x speedup on the 405B variant. Notably, on out-of-domain datasets, our method remains highly effective and outperforms the training-based method EAGLE-3 by 1.62x.
- Abstract(参考訳): 大規模言語モデル(LLM)は多種多様なタスクにまたがって高いパフォーマンスを達成するが、自動回帰生成のために高い推論遅延に悩まされる。
投機的復号(SPD)は、より小さなドラフトモデルから並列に候補トークンを検証することでこの問題を緩和するが、厳密な正確なマッチング検証は多くの意味論的に有効な継続を破棄する。
さらに、既存のトレーニングベースのSPD手法は、アウト・オブ・ディストリビューション(OOD)タスクのパフォーマンス劣化に悩まされることが多い。
そこで本研究では,目標モデルの自己補正行動を利用して,目標ミスマッチが意味論的に有効かどうかを判断することで,厳密な検証基準を緩める手法であるFLy(Training-Free Loosely Speculative Decoding)を提案する。
FLyは2階層のメカニズムを導入している: エントロピーレベルゲートは、現在のトークンが複数のプラウチブルな代替品を許容するか、ほぼ決定的かを識別する。
さらに遅延を低減するために、ターゲットモデルだけでなく、ドラフト作成者自体も加速するマルチレベル加速戦略を設計する。
トレーニング不要の設計のため、FLyは任意のドラフトターゲットペアをシームレスに構成し、ハイパーパラメータを再チューニングせずにモデルやドメインをまたいで一般化する。
実験の結果、FLyは目標モデルの精度の99%以上を維持し、Llama-3.1-70B-Instructでは平均2.81倍、405Bでは5.07倍のスピードアップを達成した。
特に、ドメイン外のデータセットでは、本手法は依然として有効であり、トレーニングベースのEAGLE-3を1.62倍に向上させる。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Automatic Task Detection and Heterogeneous LLM Speculative Decoding [1.0485739694839669]
下流タスク最適化に適した投機的復号化アルゴリズムを提案する。
ダウンストリームタスクを異なるサブタスクに自動的に分類するタスクパーティショニングとアサイン方法が含まれている。
実験の結果,提案手法はバニラ投機復号よりも6%から50%精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-13T14:16:12Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment [25.988070517700848]
自己回帰生成を高速化する手法として投機的復号法が提案されている。
GPT-4oのような強力なドラフトモデルであっても、人間のテキストは高い受け入れ率を達成できないことを示す。
私たちは、正しいが一致しない応答を認識するために、検証に適応できるだろうか?
論文 参考訳(メタデータ) (2025-01-31T17:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。