論文の概要: LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification
- arxiv url: http://arxiv.org/abs/2502.17421v1
- Date: Mon, 24 Feb 2025 18:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.732095
- Title: LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification
- Title(参考訳): LongSpec: 効率的なドラフトと検証によるロングコンテキスト投機的デコーディング
- Authors: Penghui Yang, Cunxiao Du, Fengzhuo Zhang, Haonan Wang, Tianyu Pang, Chao Du, Bo An,
- Abstract要約: 投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。
その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。
これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
- 参考スコア(独自算出の注目度): 42.54363549922909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has become a promising technique to mitigate the high inference latency of autoregressive decoding in Large Language Models (LLMs). Despite its promise, the effective application of speculative decoding in LLMs still confronts three key challenges: the increasing memory demands of the draft model, the distribution shift between the short-training corpora and long-context inference, and inefficiencies in attention implementation. In this work, we enhance the performance of speculative decoding in long-context settings by addressing these challenges. First, we propose a memory-efficient draft model with a constant-sized Key-Value (KV) cache. Second, we introduce novel position indices for short-training data, enabling seamless adaptation from short-context training to long-context inference. Finally, we present an innovative attention aggregation method that combines fast implementations for prefix computation with standard attention for tree mask handling, effectively resolving the latency and memory inefficiencies of tree decoding. Our approach achieves strong results on various long-context tasks, including repository-level code completion, long-context summarization, and o1-like long reasoning tasks, demonstrating significant improvements in latency reduction. The code is available at https://github.com/sail-sg/LongSpec.
- Abstract(参考訳): 投機的復号化は,Large Language Models (LLMs) における自己回帰復号化の高推論遅延を緩和する,有望な手法となっている。
LLMにおける投機的復号化の効果的な適用は、まだ3つの大きな課題に直面している: ドラフトモデルのメモリ要求の増加、短調コーパスと長文推論の間の分散シフト、注意点実装における非効率性。
本研究では,これらの課題に対処することで,長期コンテキスト設定における投機的復号化性能を向上させる。
まず,一定サイズのキーバリュー(KV)キャッシュを持つメモリ効率のよいドラフトモデルを提案する。
第2に、短文学習から長文推論へのシームレスな適応を可能にする、短文学習データのための新しい位置指標を提案する。
最後に,プレフィックス計算の高速な実装と木マスク処理の標準注意を組み合わせ,木デコーディングの遅延とメモリ非効率を効果的に解消する,革新的なアテンション集約手法を提案する。
提案手法は,リポジトリレベルのコード補完,長文要約,o1ライクな長文推論タスクなど,さまざまな長文タスクに対して強力な結果をもたらす。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Long-Context Inference with Retrieval-Augmented Speculative Decoding [7.785459677641105]
LLM(Long-context Large Language Model)は、従来の検索拡張世代(RAG)に代わる有望な代替手段を提供する。
本稿では、RAGを利用したRAPID(Retrieval-Augmented Speculative Decoding)を提案する。
提案手法は,計算効率を維持しつつ,同一スケールあるいはそれ以上のLLMをRAGドラフトとして機能させる,新たなパラダイムを実現する。
論文 参考訳(メタデータ) (2025-02-27T17:59:36Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。
投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。
我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。