論文の概要: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences
- arxiv url: http://arxiv.org/abs/2505.20776v1
- Date: Tue, 27 May 2025 06:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.448506
- Title: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences
- Title(参考訳): SpecExtend:ロングシーケンスの投機的デコードのためのドロップイン拡張
- Authors: Jungyoub Cha, Hyunjong Kim, Sungzoon Cho,
- Abstract要約: 本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。
SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。
そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
- 参考スコア(独自算出の注目度): 4.268504966623081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), but its performance degrades on long inputs due to increased attention cost and reduced draft accuracy. We introduce SpecExtend, a drop-in enhancement that improves the performance of speculative decoding on long sequences without any additional training. SpecExtend integrates efficient attention mechanisms such as FlashAttention and Hybrid Tree Attention into both the draft and target models, reducing latency across all stages. To improve draft accuracy and speed, we propose Cross-model Retrieval, a novel KV cache update strategy that uses the target model's attention scores to dynamically select relevant context for the draft model. Extensive evaluations on three long-context understanding datasets show that SpecExtend accelerates standard tree-based speculative decoding by up to 2.22x for inputs up to 16K tokens, providing an effective solution for speculative decoding of long sequences. The code is available at https://github.com/jycha98/SpecExtend .
- Abstract(参考訳): 投機的復号化は大規模言語モデル(LLM)における推論を高速化する手法として広く採用されているが、その性能は注意コストの増大とドラフト精度の低下により長い入力で低下する。
追加のトレーニングを必要とせずに、長いシーケンスでの投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを導入する。
SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的なアテンションメカニズムをドラフトモデルとターゲットモデルの両方に統合し、すべてのステージにわたるレイテンシを低減する。
提案手法は,目標モデルの注意点を用いた新しいKVキャッシュ更新戦略であるクロスモデル検索法を提案し,ドラフトモデルに関連するコンテキストを動的に選択する。
3つの長期コンテキスト理解データセットの大規模な評価によると、SpecExtendは16Kトークンの入力に対して2.22倍の標準的なツリーベースの投機的復号化を加速し、長いシーケンスの投機的復号化に有効なソリューションを提供する。
コードはhttps://github.com/jycha98/SpecExtend で公開されている。
関連論文リスト
- DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。
その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。
これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [12.74265334789358]
我々は,中間列から長列への高スループット推論方式であっても,投機的復号化が高速化可能であることを示す。
最大高速化のための最適起草戦略を選択するための理論的モデルを提案する。
中程度から長いシーケンスでは、32から256までのバッチサイズでLlama3.1-8Bの2.51倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。