論文の概要: Draft Model Knows When to Stop: Self-Verification Speculative Decoding for Long-Form Generation
- arxiv url: http://arxiv.org/abs/2411.18462v2
- Date: Sun, 24 Aug 2025 15:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.408975
- Title: Draft Model Knows When to Stop: Self-Verification Speculative Decoding for Long-Form Generation
- Title(参考訳): 停止時期を知るドラフトモデル:長期生成のための自己検証投機的デコーディング
- Authors: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu,
- Abstract要約: 主流SDベンチマークと推論重ベンチマークの実験結果から,SVIPの優れた性能が示された。
SVIPは、ドラフトエントロピーを参照して、ドラフトシーケンスの長さを適応的に決定する、投機的復号システムのためのトレーニング不要な動的長さポリシーである。
- 参考スコア(独自算出の注目度): 64.59292053188264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conventional speculative decoding (SD) methods utilize a predefined length policy for proposing drafts, which implies the premise that the target model smoothly accepts the proposed draft tokens. However, reality deviates from this assumption: the oracle draft length varies significantly, and the fixed-length policy hardly satisfies such a requirement. Moreover, such discrepancy is further exacerbated in scenarios involving complex reasoning and long-form generation, particularly under test-time scaling for reasoning-specialized models. Through both theoretical and empirical estimation, we establish that the discrepancy between the draft and target models can be approximated by the draft model's prediction entropy: a high entropy indicates a low acceptance rate of draft tokens, and vice versa. Based on this insight, we propose SVIP: Self-Verification Length Policy for Long-Context Speculative Decoding, which is a training-free dynamic length policy for speculative decoding systems that adaptively determines the lengths of draft sequences by referring to the draft entropy. Experimental results on mainstream SD benchmarks as well as reasoning-heavy benchmarks demonstrate the superior performance of SVIP, achieving up to 17% speedup on MT-Bench at 8K context compared with fixed draft lengths, and 22% speedup for QwQ in long-form reasoning.
- Abstract(参考訳): 従来の投機的復号法 (SD) では、事前に定義された長さポリシーを用いてドラフトを提案し、ターゲットモデルが提案されたドラフトトークンを円滑に受け入れるという前提を示唆している。
しかし、現実はこの前提から逸脱しており、オラクルの草案の長さは様々であり、固定長ポリシーはそのような要件を満たすことはほとんどない。
さらに、複雑な推論とロングフォーム生成を含むシナリオでは、特に推論特化モデルに対するテスト時間スケーリングにおいて、このような不一致がさらに悪化する。
理論的および実証的推定の両方を通して、ドラフトモデルとターゲットモデルの相違は、ドラフトモデルの予測エントロピーによって近似できることを確立し、高いエントロピーはドラフトトークンの受け入れ率の低いことを示し、その逆も示している。
この知見に基づいて,提案するSVIP: Self-Verification Length Policy for Long-Context Speculative Decodingは,ドラフトエントロピーを参照してドラフトシーケンスの長さを適応的に決定する投機的デコーディングシステムのためのトレーニング不要な動的長さポリシーである。
主流SDベンチマークと推論重ベンチマークの実験結果はSVIPの優れた性能を示し、8KコンテキストでのMT-Benchの最大17%の高速化、長文推論におけるQwQの22%の高速化を実現している。
関連論文リスト
- Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。
Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文 参考訳(メタデータ) (2025-04-08T01:12:59Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。
LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures [11.436315332919245]
適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。
AdaEAGLEは、バニラARデコードよりも1.62倍のスピードアップを実現し、固定長のSotAベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-25T13:57:33Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。
PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。
PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。
EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。
提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文 参考訳(メタデータ) (2024-06-06T08:40:28Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。