論文の概要: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2411.18462v1
- Date: Wed, 27 Nov 2024 15:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:31.233074
- Title: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
- Title(参考訳): 投機的復号化のための自己検証長ポリシ
- Authors: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu,
- Abstract要約: SVIPは投機的復号システムのための動的ドラフト長ポリシーである。
SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、ドラフトシーケンスの長さを適応的に決定する。
SVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
- 参考スコア(独自算出の注目度): 48.35612830487145
- License:
- Abstract: Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.
- Abstract(参考訳): 投機的復号化(SD)は,大規模言語モデルの推論速度を高速化する重要な手法となっている。
従来のSDメソッドでは、タスク間のトークン生成の難しさを無視する固定されたドラフト長が採用されている。
そこで本稿では,このような問題に対処し,投機的復号システムのための動的ドラフト長ポリシーであるSVIPを導入する。
SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、各ドラフトトークン分布のエントロピーに基づいて、ドラフトシーケンスの長さを適応的に決定する。
メインストリームSDベンチマークとフレームワークによる実験結果から,SVIPの性能が向上し,ベースラインSD法ではSpecBenchで最大20倍,MT-Benchで最大8Kトークンの長文生成では60倍の高速化を実現した。
さらにSVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
また, SVIPはGliDe & CaPEおよびEAGLE-2上に一貫した壁面改善をもたらすことを示した。
関連論文リスト
- GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。
LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding [11.167833073080612]
LLM(Large Language Models)における推論の高速化は、リアルタイムインタラクションにおいて重要である。
投機的復号化は、トークンの起草と検証によって推論速度の向上に注目され、1つのフォワードパスで複数のトークンが生成される。
本稿では,時間的局所性に基づく階層型フレームワークを用いて,さまざまなトークンソースを複数のデータベースにまとめる,新しい無損失ドラフト手法である階層ドラフト(HD)を提案する。
7B と 13B のパラメータを持つ LLM を用いた Spec-Bench 実験では,HD が既存のデータベースドラフト手法より優れており,モデルサイズ,タスク,温度に対する堅牢な推論スピードアップが達成されている。
論文 参考訳(メタデータ) (2025-02-08T15:32:53Z) - AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures [11.436315332919245]
適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。
AdaEAGLEは、バニラARデコードよりも1.62倍のスピードアップを実現し、固定長のSotAベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-25T13:57:33Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。
EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。
提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文 参考訳(メタデータ) (2024-06-06T08:40:28Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。