論文の概要: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2411.18462v1
- Date: Wed, 27 Nov 2024 15:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:31.233074
- Title: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
- Title(参考訳): 投機的復号化のための自己検証長ポリシ
- Authors: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu,
- Abstract要約: SVIPは投機的復号システムのための動的ドラフト長ポリシーである。
SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、ドラフトシーケンスの長さを適応的に決定する。
SVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
- 参考スコア(独自算出の注目度): 48.35612830487145
- License:
- Abstract: Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.
- Abstract(参考訳): 投機的復号化(SD)は,大規模言語モデルの推論速度を高速化する重要な手法となっている。
従来のSDメソッドでは、タスク間のトークン生成の難しさを無視する固定されたドラフト長が採用されている。
そこで本稿では,このような問題に対処し,投機的復号システムのための動的ドラフト長ポリシーであるSVIPを導入する。
SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、各ドラフトトークン分布のエントロピーに基づいて、ドラフトシーケンスの長さを適応的に決定する。
メインストリームSDベンチマークとフレームワークによる実験結果から,SVIPの性能が向上し,ベースラインSD法ではSpecBenchで最大20倍,MT-Benchで最大8Kトークンの長文生成では60倍の高速化を実現した。
さらにSVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
また, SVIPはGliDe & CaPEおよびEAGLE-2上に一貫した壁面改善をもたらすことを示した。
関連論文リスト
- TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.20856449846164]
TokenSelectは、モデルに依存しない、訓練のない、効率的で正確な長文推論手法である。
TokenSelectの総合評価では、注意点の最大23.84倍、エンドツーエンドのレイテンシの最大2.28倍の高速化が示されている。
論文 参考訳(メタデータ) (2024-11-05T07:56:24Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。
PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。
PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - MCSD: An Efficient Language Model with Diverse Fusion [3.3772986620114387]
MCSDモデルは線形スケーリングと高速推論速度を備えた効率的な言語モデルである。
推論過程を反復表現に定式化し、空間複雑性を$O(1)$に、時間複雑性を$O(N)$に分割する。
実験の結果, MCSDはトランスフォーマーに比べてスループットが高く, メモリ消費も低いことがわかった。
論文 参考訳(メタデータ) (2024-06-18T03:08:01Z) - Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。
EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。
提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文 参考訳(メタデータ) (2024-06-06T08:40:28Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。