論文の概要: DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
- arxiv url: http://arxiv.org/abs/2410.10819v1
- Date: Mon, 14 Oct 2024 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:09:48.298707
- Title: DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
- Title(参考訳): DuoAttention: 検索とストリーミングによるLLM推論の効率化
- Authors: Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han,
- Abstract要約: すべての注目ヘッドにキーとバリューの状態をキャッシュすると、かなりのメモリが消費される。
我々は,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,全KVキャッシュのみを検索ヘッドに適用するフレームワークであるDuoAttentionを紹介する。
GQAモデルでは,MHAでは2.55倍,GQAでは1.67倍の長文推論メモリが大幅に削減される。
- 参考スコア(独自算出の注目度): 22.462489968597
- License:
- Abstract: Deploying long-context large language models (LLMs) is essential but poses significant computational and memory challenges. Caching all Key and Value (KV) states across all attention heads consumes substantial memory. Existing KV cache pruning methods either damage the long-context capabilities of LLMs or offer only limited efficiency improvements. In this paper, we identify that only a fraction of attention heads, a.k.a, Retrieval Heads, are critical for processing long contexts and require full attention across all tokens. In contrast, all other heads, which primarily focus on recent tokens and attention sinks--referred to as Streaming Heads--do not require full attention. Based on this insight, we introduce DuoAttention, a framework that only applies a full KV cache to retrieval heads while using a light-weight, constant-length KV cache for streaming heads, which reduces both LLM's decoding and pre-filling memory and latency without compromising its long-context abilities. DuoAttention uses a lightweight, optimization-based algorithm with synthetic data to identify retrieval heads accurately. Our method significantly reduces long-context inference memory by up to 2.55x for MHA and 1.67x for GQA models while speeding up decoding by up to 2.18x and 1.50x and accelerating pre-filling by up to 1.73x and 1.63x for MHA and GQA models, respectively, with minimal accuracy loss compared to full attention. Notably, combined with quantization, DuoAttention enables Llama-3-8B decoding with 3.3 million context length on a single A100 GPU. Code is provided in https://github.com/mit-han-lab/duo-attention.
- Abstract(参考訳): LLM(Long-context Large Language Model)の展開は不可欠だが、計算とメモリの面で大きな課題がある。
すべての注目ヘッドにキーとバリュー(KV)のステートをキャッシュすると、かなりのメモリが消費される。
既存のKVキャッシュプルーニング手法は、LLMの長期コンテキスト能力を損なうか、限られた効率改善しか提供しない。
本稿では,長いコンテキストの処理に重要であり,すべてのトークンに完全に注意を要するのは,少数の注意頭(Retrieval Heads)のみであることを示す。
対照的に、近年のトークンと注目に重点を置く他のすべての頭は、ストリーミングヘッドとして参照され、完全な注意を必要としない。
この知見に基づいて,DuoAttentionは,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,検索ヘッドにフルKVキャッシュのみを適用するフレームワークである。
DuoAttentionは、合成データによる軽量な最適化ベースのアルゴリズムを使用して、検索ヘッドを正確に識別する。
提案手法は,GQAモデルに対して最大2.55倍,GQAモデルに対して最大1.67倍,復号化を最大2.18倍,GQAモデルに対して最大1.73倍,GQAモデルに対して最大1.63倍の高速化を実現した。
特に量子化と組み合わせて、DuoAttentionは単一のA100 GPU上で330万のコンテキスト長を持つLlama-3-8Bデコードを可能にする。
コードはhttps://github.com/mit-han-lab/duo-attention.comで提供されている。
関連論文リスト
- S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - CHAI: Clustered Head Attention for Efficient LLM Inference [11.056313961175702]
クラスタ型ヘッドアテンション(CHAI)は、K,Vキャッシュを最大21.4%、推論時間遅延を最大1.73倍まで、微調整を必要とせずに削減することができる。
我々は,K,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに,メモリ要求を最大で1.73倍削減できることを示した。
論文 参考訳(メタデータ) (2024-03-12T20:10:04Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。