論文の概要: Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2406.10774v1
- Date: Sun, 16 Jun 2024 01:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:51:13.856323
- Title: Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
- Title(参考訳): Quest: 長期LLMの効率的な推論のためのクエリ対応スポーサリティ
- Authors: Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han,
- Abstract要約: クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。
Questは最大2.23倍の自己注意速度を達成できることを示す。
- 参考スコア(独自算出の注目度): 10.732268985320411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the demand for long-context large language models (LLMs) increases, models with context windows of up to 128K or 1M tokens are becoming increasingly prevalent. However, long-context LLM inference is challenging since the inference speed decreases significantly as the sequence length grows. This slowdown is primarily caused by loading a large KV cache during self-attention. Previous works have shown that a small portion of critical tokens will dominate the attention outcomes. However, we observe the criticality of a token highly depends on the query. To this end, we propose Quest, a query-aware KV cache selection algorithm. Quest keeps track of the minimal and maximal Key values in KV cache pages and estimates the criticality of a given page using Query vectors. By only loading the Top-K critical KV cache pages for attention, Quest significantly speeds up self-attention without sacrificing accuracy. We show that Quest can achieve up to 2.23x self-attention speedup, which reduces inference latency by 7.03x while performing well on tasks with long dependencies with negligible accuracy loss. Code is available at http://github.com/mit-han-lab/Quest .
- Abstract(参考訳): 長文大言語モデル(LLM)の需要が増大するにつれて、最大128Kまたは1Mトークンのコンテキストウィンドウを持つモデルはますます広まりつつある。
しかし、長文LLM推論は、シーケンス長が大きくなるにつれて推論速度が大幅に低下するため、困難である。
このスローダウンは、主に自己アテンション中に大きなKVキャッシュをロードすることに起因する。
以前の研究では、重要なトークンのごく一部が注意結果を支配していることが示されている。
しかし,トークンの臨界度はクエリに大きく依存している。
そこで本研究では,クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。
Questは、KVキャッシュページ内の最小かつ最大キー値を追跡し、クエリベクタを使用して、所定のページの臨界度を推定する。
注意のためにTop-KクリティカルなKVキャッシュページだけをロードすることで、Questは正確さを犠牲にすることなく、自己アテンションを大幅に高速化する。
Questは最大2.23倍のセルフアテンションスピードアップを実現でき、推論の遅延を7.03倍削減できると同時に、無視できる精度の損失のある長いタスクでも良好に動作可能であることを示す。
コードはhttp://github.com/mit-han-lab/Questで入手できる。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである
現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
論文 参考訳(メタデータ) (2024-07-01T13:05:42Z) - Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters [27.07430914301738]
本稿では,トークンの重要性を評価するために,注目スコアと$ ell_1 $ 値ベクトルのノルムを併用したバリューアウェアトークンプルーニング(VATP)を提案する。
LLaMA2-7B-chatとVicuna-v1.5-7Bの16のLongBenchタスクに対する実験は、VATPの優れた性能を示している。
論文 参考訳(メタデータ) (2024-06-18T07:01:11Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。