論文の概要: LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification
- arxiv url: http://arxiv.org/abs/2502.17421v2
- Date: Tue, 17 Jun 2025 05:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:20.01851
- Title: LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification
- Title(参考訳): LongSpec: 効率的なドラフトと検証による長期ロスレス投機的デコード
- Authors: Penghui Yang, Cunxiao Du, Fengzhuo Zhang, Haonan Wang, Tianyu Pang, Chao Du, Bo An,
- Abstract要約: LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
- 参考スコア(独自算出の注目度): 42.54363549922909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) can now process extremely long contexts, efficient inference over these extended inputs has become increasingly important, especially for emerging applications like LLM agents that highly depend on this capability. Speculative decoding (SD) offers a promising lossless acceleration technique compared to lossy alternatives such as quantization and model cascades. However, most state-of-the-art SD methods are trained on short texts (typically fewer than 4k tokens), making them unsuitable for long-context scenarios. Specifically, adapting these methods to long contexts presents three key challenges: (1) the excessive memory demands posed by draft models due to large Key-Value (KV) cache; (2) performance degradation resulting from the mismatch between short-context training and long-context inference; and (3) inefficiencies in tree attention mechanisms when managing long token sequences. This work introduces LongSpec, a framework that addresses these challenges through three core innovations: a memory-efficient draft model with a constant-sized KV cache; novel position indices that mitigate the training-inference mismatch; and an attention aggregation strategy that combines fast prefix computation with standard tree attention to enable efficient decoding. Experimental results confirm the effectiveness of LongSpec, achieving up to a 3.26x speedup over strong Flash Attention baselines across five long-context understanding datasets, as well as a 2.25x reduction in wall-clock time on the AIME24 long reasoning task with the QwQ model, demonstrating significant latency improvements for long-context applications. The code is available at https://github.com/sail-sg/LongSpec.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に長いコンテキストを処理できるようになったため、これらの拡張された入力に対する効率的な推論がますます重要になっている。
投機的復号法(SD)は、量子化やモデルカスケードのような損失の少ない代替手法と比較して、有望なロスレス加速法を提供する。
しかし、ほとんどの最先端のSDメソッドは短いテキスト(典型的には4kトークン未満)で訓練されており、長文シナリオには適さない。
具体的には,(1)大容量キーバリュー(KV)キャッシュによるドラフトモデルによる過剰なメモリ要求,(2)短文トレーニングと長文推論のミスマッチによるパフォーマンス劣化,(3)長文トークンシーケンスの管理におけるツリーアテンション機構の非効率性を示す。
この研究は、メモリ効率のよいKVキャッシュを備えたドラフトモデル、トレーニングと推論のミスマッチを緩和する新しい位置指標、高速プレフィックス計算と標準ツリーアテンションを組み合わせたアテンション集約戦略の3つのコアイノベーションを通じてこれらの課題に対処するフレームワークであるLongSpecを紹介した。
実験結果は、LongSpecの有効性を確認し、5つの長いコンテキスト理解データセットにわたる強力なFlash注意ベースラインよりも3.26倍のスピードアップを実現し、また、QwQモデルによるAIME24の長い推論タスクにおけるウォールクロック時間の2.25倍の短縮を実現し、長いコンテキストアプリケーションに対する大幅な遅延改善を実証した。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Long-Context Inference with Retrieval-Augmented Speculative Decoding [7.785459677641105]
LLM(Long-context Large Language Model)は、従来の検索拡張世代(RAG)に代わる有望な代替手段を提供する。
本稿では、RAGを利用したRAPID(Retrieval-Augmented Speculative Decoding)を提案する。
提案手法は,計算効率を維持しつつ,同一スケールあるいはそれ以上のLLMをRAGドラフトとして機能させる,新たなパラダイムを実現する。
論文 参考訳(メタデータ) (2025-02-27T17:59:36Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。
投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。
我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。