論文の概要: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences
- arxiv url: http://arxiv.org/abs/2505.20776v3
- Date: Mon, 29 Sep 2025 12:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.994462
- Title: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences
- Title(参考訳): SpecExtend:ロングシーケンスの投機的デコードのためのドロップイン拡張
- Authors: Jungyoub Cha, Hyunjong Kim, Sungzoon Cho,
- Abstract要約: SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
- 参考スコア(独自算出の注目度): 11.225649178057695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is a widely used technique for accelerating inference in large language models (LLMs), but its performance degrades as input length grows, with significant drops even at moderate lengths. Yet, this early degradation has remained largely underexplored. We introduce SpecExtend, a drop-in enhancement that improves speculative decoding on long sequences without additional training. SpecExtend integrates efficient attention mechanisms such as FlashAttention and Hybrid Tree Attention to accelerate prefill and verification steps. To improve both draft accuracy and speed on long inputs without retraining, we propose Cross-model Retrieval, a novel KV cache eviction strategy that leverages the target model's attention scores to dynamically select relevant context for the smaller draft model. Extensive evaluations show that SpecExtend accelerates speculative decoding by up to 2.84x on 16K-token long summarization and up to 3.86x on long reasoning, while preserving the short-input performance of state-of-the-art frameworks. Our code is available at https://github.com/jycha98/SpecExtend .
- Abstract(参考訳): 投機的復号法は大規模言語モデル(LLM)において推論を高速化する手法として広く用いられているが、入力長が増加するにつれて性能は低下し、中程度の長さでも顕著な低下が生じる。
しかし、この初期の劣化は未発見のままである。
本稿では,長いシーケンスの投機的復号化を改善するドロップインエンハンスメントであるSpecExtendを紹介する。
SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的なアテンションメカニズムを統合して、プリフィルと検証のステップを高速化する。
提案手法は,目標モデルの注意点を利用した新しいKVキャッシュ消去戦略で,より小さなドラフトモデルのコンテキストを動的に選択する。
広範囲な評価の結果、SpecExtendは16K-tokenの長い要約で最大2.84倍、ロング推論で最大3.86倍の投機的復号化を加速し、最先端のフレームワークの短入力性能を維持している。
私たちのコードはhttps://github.com/jycha98/SpecExtend で利用可能です。
関連論文リスト
- Length-Adaptive Interest Network for Balancing Long and Short Sequence Modeling in CTR Prediction [50.094751096858204]
LAINは、長いシーケンスと短いシーケンスのモデリングのバランスをとるために、シーケンス長を条件信号として組み込んだプラグアンドプレイフレームワークである。
私たちの仕事は、シーケンシャルなレコメンデーションにおいて、長さによるバイアスを軽減する、汎用的で効率的でデプロイ可能なソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-27T03:14:20Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification [11.366541829206199]
投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。
部分鍵値状態を用いた高速な検証を行う自己投機的復号法であるSpecPVを導入する。
LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。
論文 参考訳(メタデータ) (2025-12-02T02:15:33Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - SpecExit: Accelerating Large Reasoning Model via Speculative Exit [10.522333173441453]
我々は、将来のトークンとドラフトモデルから直接、オーバーヘッドを予測せずに早期終了シグナルを予測するフレームワークであるSpecExitを提案する。
提案手法は,平均生成長を66%削減し,エンドツーエンドのレイテンシで2.5倍の高速化を実現した。
論文 参考訳(メタデータ) (2025-09-29T03:39:32Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。
その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。
これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [12.74265334789358]
我々は,中間列から長列への高スループット推論方式であっても,投機的復号化が高速化可能であることを示す。
最大高速化のための最適起草戦略を選択するための理論的モデルを提案する。
中程度から長いシーケンスでは、32から256までのバッチサイズでLlama3.1-8Bの2.51倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。
これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。
1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文 参考訳(メタデータ) (2024-02-16T23:36:43Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。