Fugu-MT 論文翻訳(概要): Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

論文の概要: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

arxiv url: http://arxiv.org/abs/2411.18462v1
Date: Wed, 27 Nov 2024 15:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.732751
Title: Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
Title（参考訳）: 投機的復号化のための自己検証長ポリシ
Authors: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu,
Abstract要約: SVIPは投機的復号システムのための動的ドラフト長ポリシーである。 SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、ドラフトシーケンスの長さを適応的に決定する。 SVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
参考スコア（独自算出の注目度）: 48.35612830487145
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.
Abstract（参考訳）: 投機的復号化(SD)は,大規模言語モデルの推論速度を高速化する重要な手法となっている。従来のSDメソッドでは、タスク間のトークン生成の難しさを無視する固定されたドラフト長が採用されている。そこで本稿では,このような問題に対処し,投機的復号システムのための動的ドラフト長ポリシーであるSVIPを導入する。 SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、各ドラフトトークン分布のエントロピーに基づいて、ドラフトシーケンスの長さを適応的に決定する。メインストリームSDベンチマークとフレームワークによる実験結果から,SVIPの性能が向上し,ベースラインSD法ではSpecBenchで最大20倍,MT-Benchで最大8Kトークンの長文生成では60倍の高速化を実現した。さらにSVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。また, SVIPはGliDe & CaPEおよびEAGLE-2上に一貫した壁面改善をもたらすことを示した。

関連論文リスト

Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。 textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文参考訳（メタデータ） (2025-04-21T09:41:26Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures [11.436315332919245]
適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。 AdaEAGLEは、バニラARデコードよりも1.62倍のスピードアップを実現し、固定長のSotAベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-25T13:57:33Z)
AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文参考訳（メタデータ） (2024-10-24T01:13:43Z)
Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文参考訳（メタデータ） (2024-09-16T18:20:38Z)
Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。 PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。 PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。 EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文参考訳（メタデータ） (2024-06-06T08:40:28Z)
Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文参考訳（メタデータ） (2024-02-04T07:49:02Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。