論文の概要: Test-Time Speculation
- arxiv url: http://arxiv.org/abs/2605.09329v2
- Date: Tue, 19 May 2026 16:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.310056
- Title: Test-Time Speculation
- Title(参考訳): テストタイムの推測
- Authors: Avinash Kumar, Sujay Sanghavi, Poulami Das,
- Abstract要約: 投機的復号化は、高速なドラフトモデルを使用してトークンとより正確なターゲットモデルを生成して推論を加速する。
本研究は,最先端の投機家でも受理長は世代長とともに低下することを示した。
我々は,テスト時に投機を継続的に適応させるオンライン蒸留手法である$textitTest-Time Speculation (TTS)$を提案する。
- 参考スコア(独自算出の注目度): 15.347747465564458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by using a fast draft model to generate tokens and a more accurate target model to verify them. Its performance depends on the $\textit{acceptance length}$, or number of draft tokens accepted by the target. Our studies show that the acceptance length of even state-of-the-art speculators, like DFlash, EAGLE-3 and PARD degrade with generation length, reaching values close to 1 (i.e. no speedup) within just a few thousand output tokens, making speculators ineffective for long-response tasks. Acceptance lengths decline because most speculators are trained offline on short sequences, but are forced to match the target model on much longer outputs at inference, well beyond their training distribution. To address this issue, we propose $\textit{Test-Time Speculation (TTS)}$, an online distillation approach that continuously adapts the speculator at test-time. TTS leverages the key insight that the token verification step already invokes the target model for each draft token, providing the training signal needed to adapt the draft at no additional cost. Treating the draft as the student and the target as a teacher, TTS adjusts the draft over several speculation rounds, with each update improving the draft's accuracy as generation proceeds. Our results across multiple models from the Qwen-3, Qwen-3.5, and Llama3.1 families show that TTS improves acceptance lengths over state-of-the-art speculators by up to $72\%$ and $41\%$ on average, with the benefits scaling with increased generation lengths.
- Abstract(参考訳): 投機的復号化は、高速なドラフトモデルを使用してトークンとより正確なターゲットモデルを生成し、LSM推論を加速する。
そのパフォーマンスは、$\textit{acceptance length}$、またはターゲットが受け入れるドラフトトークンの数に依存する。
我々の研究は、DFlash、EAGLE-3、PARDのような最先端の投機家の受理長は、生成長で劣化し、数千の出力トークンで1(すなわち、スピードアップなし)に近い値に達することを示し、投機家の長期応答タスクには効果がない。
ほとんどの投機家は短いシーケンスでオフラインでトレーニングされるが、推論でずっと長い出力でターゲットモデルと一致せざるを得ないため、受容長は減少する。
この問題を解決するために、テスト時に投機を継続的に適応させるオンライン蒸留アプローチである$\textit{Test-Time Speculation (TTS)$を提案する。
TTSは、トークン検証ステップが各ドラフトトークンのターゲットモデルをすでに実行しているという重要な洞察を活用し、追加のコストでドラフトに適応するために必要なトレーニング信号を提供する。
ドラフトを学生として、ターゲットを教師として扱い、TSはドラフトをいくつかの投機ラウンドで調整し、各更新は世代が進むにつれてドラフトの正確性を改善する。
Qwen-3, Qwen-3.5, Llama3.1 ファミリーの複数のモデルから得られた結果から,TTS は最新投機よりも平均 72\% と 411\% の受け入れ長を向上し, 生成長の増大によるメリットが示された。
関連論文リスト
- Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning [67.88087883391475]
本稿では,各ドラフト・アンド・検証サイクルのスループットを直接最適化する新しい手法であるLearning to Draftを紹介する。
LTDは2.24倍から4.32倍までのスピードアップ比を達成し、最先端のイーグル3よりも36.4%向上した。
論文 参考訳(メタデータ) (2026-03-02T09:17:48Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification [63.65902785448346]
投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
論文 参考訳(メタデータ) (2026-01-30T17:04:18Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation [4.031603850949324]
本稿では,自動回帰ドラフトモデルの並列ドラフトモデルへの低コストな適応を可能にする新しい投機的復号化手法を提案する。
提案した条件付きドロップトークン法は,ドラフトモデルのトレーニング効率を3倍に向上させることができる。
最適化された推論フレームワークでは、PARDはLLaMA3.1-8B推論を4.08倍高速化し、毎秒311.5トークンを達成する。
論文 参考訳(メタデータ) (2025-04-23T12:27:43Z) - Draft Model Knows When to Stop: Self-Verification Speculative Decoding for Long-Form Generation [64.59292053188264]
主流SDベンチマークと推論重ベンチマークの実験結果から,SVIPの優れた性能が示された。
SVIPは、ドラフトエントロピーを参照して、ドラフトシーケンスの長さを適応的に決定する、投機的復号システムのためのトレーニング不要な動的長さポリシーである。
論文 参考訳(メタデータ) (2024-11-27T15:53:17Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。