Fugu-MT 論文翻訳(概要): SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences

論文の概要: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences

arxiv url: http://arxiv.org/abs/2505.20776v1
Date: Tue, 27 May 2025 06:30:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.448506
Title: SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences
Title（参考訳）: SpecExtend:ロングシーケンスの投機的デコードのためのドロップイン拡張
Authors: Jungyoub Cha, Hyunjong Kim, Sungzoon Cho,
Abstract要約: 本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。 SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
参考スコア（独自算出の注目度）: 4.268504966623081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), but its performance degrades on long inputs due to increased attention cost and reduced draft accuracy. We introduce SpecExtend, a drop-in enhancement that improves the performance of speculative decoding on long sequences without any additional training. SpecExtend integrates efficient attention mechanisms such as FlashAttention and Hybrid Tree Attention into both the draft and target models, reducing latency across all stages. To improve draft accuracy and speed, we propose Cross-model Retrieval, a novel KV cache update strategy that uses the target model's attention scores to dynamically select relevant context for the draft model. Extensive evaluations on three long-context understanding datasets show that SpecExtend accelerates standard tree-based speculative decoding by up to 2.22x for inputs up to 16K tokens, providing an effective solution for speculative decoding of long sequences. The code is available at https://github.com/jycha98/SpecExtend .
Abstract（参考訳）: 投機的復号化は大規模言語モデル(LLM)における推論を高速化する手法として広く採用されているが、その性能は注意コストの増大とドラフト精度の低下により長い入力で低下する。追加のトレーニングを必要とせずに、長いシーケンスでの投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを導入する。 SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的なアテンションメカニズムをドラフトモデルとターゲットモデルの両方に統合し、すべてのステージにわたるレイテンシを低減する。提案手法は,目標モデルの注意点を用いた新しいKVキャッシュ更新戦略であるクロスモデル検索法を提案し,ドラフトモデルに関連するコンテキストを動的に選択する。 3つの長期コンテキスト理解データセットの大規模な評価によると、SpecExtendは16Kトークンの入力に対して2.22倍の標準的なツリーベースの投機的復号化を加速し、長いシーケンスの投機的復号化に有効なソリューションを提供する。コードはhttps://github.com/jycha98/SpecExtend で公開されている。

関連論文リスト

Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文参考訳（メタデータ） (2025-06-04T16:01:48Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [12.74265334789358]
我々は,中間列から長列への高スループット推論方式であっても,投機的復号化が高速化可能であることを示す。最大高速化のための最適起草戦略を選択するための理論的モデルを提案する。中程度から長いシーケンスでは、32から256までのバッチサイズでLlama3.1-8Bの2.51倍のスピードアップを示す。
論文参考訳（メタデータ） (2024-08-20T17:57:31Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。 1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文参考訳（メタデータ） (2024-02-16T23:36:43Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。