論文の概要: Draft-based Approximate Inference for LLMs
- arxiv url: http://arxiv.org/abs/2506.08373v1
- Date: Tue, 10 Jun 2025 02:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.253734
- Title: Draft-based Approximate Inference for LLMs
- Title(参考訳): LLMのドラフトに基づく近似推論
- Authors: Kevin Galim, Ethan Ewer, Wonjun Kang, Minjae Lee, Hyung Il Koo, Kangwook Lee,
- Abstract要約: 本稿では,大規模言語モデル推論のための新しいフレームワークを提案する。
我々は,提案フレームワークの2つのインスタンス化を紹介した。 (i) SpecKVは,KVペアの重要性を正確に評価するためにドラフト出力を利用する。 (ii) SpecPCは,ドラフトモデルのアテンションアクティベーションを使用して,重要でないプロンプトトークンを識別・破棄する。
我々の手法は、メモリ使用量、レイテンシ、スループットが同じ改善を保ちながら、既存のベースラインよりも常に高い精度を達成する。
- 参考スコア(独自算出の注目度): 7.287280338330983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing inference for long-context Large Language Models (LLMs) is increasingly important due to the quadratic compute and linear memory complexity of Transformers. Existing approximation methods, such as key-value (KV) cache dropping, sparse attention, and prompt compression, typically rely on rough predictions of token or KV pair importance. We propose a novel framework for approximate LLM inference that leverages small draft models to more accurately predict the importance of tokens and KV pairs. Specifically, we introduce two instantiations of our proposed framework: (i) SpecKV, which leverages a draft output to accurately assess the importance of each KV pair for more effective KV cache dropping, and (ii) SpecPC, which uses the draft model's attention activations to identify and discard unimportant prompt tokens. To the best of our knowledge, this is the first work to use draft models for approximate LLM inference acceleration, extending their utility beyond traditional lossless speculative decoding. We motivate our methods with theoretical and empirical analyses, and show a strong correlation between the attention patterns of draft and target models. Extensive experiments on long-context benchmarks show that our methods consistently achieve higher accuracy than existing baselines, while preserving the same improvements in memory usage, latency, and throughput. Our code is available at https://github.com/furiosa-ai/draft-based-approx-llm.
- Abstract(参考訳): 長文大言語モデル(LLM)の推論の最適化は、トランスフォーマーの二次計算と線形メモリの複雑さのため、ますます重要になっている。
キー値(KV)キャッシュのダウン、スパースアテンション、即時圧縮といった既存の近似手法は、一般的にトークンやKVペアの重要性の粗い予測に依存している。
トークンとKVペアの重要性をより正確に予測するために,小さなドラフトモデルを活用する,近似LDM推論のための新しいフレームワークを提案する。
具体的には、提案するフレームワークの2つのインスタンス化を紹介します。
(i)より効率的なKVキャッシュダウンのための各KVペアの重要性を正確に評価するためにドラフト出力を利用するSpecKV
(ii) SpecPCは、ドラフトモデルのアテンションアクティベーションを使用して、重要でないプロンプトトークンを識別および破棄する。
我々の知る限りでは、従来の損失のない投機的復号化を超えて、LLM推論加速を近似するためにドラフトモデルを使用した最初の研究である。
提案手法を理論的および経験的分析により動機付け, 対象モデルの注意パターンと目標モデルの強い相関関係を示す。
提案手法は,メモリ使用量,レイテンシ,スループットにおいて同じ改善を保ちながら,既存のベースラインよりも常に高い精度を実現していることを示す。
私たちのコードはhttps://github.com/furiosa-ai/draft-based-approx-llm.comで公開しています。
関連論文リスト
- Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。
我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。
第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。