Fugu-MT 論文翻訳(概要): Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference

論文の概要: Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference

arxiv url: http://arxiv.org/abs/2406.10774v1
Date: Sun, 16 Jun 2024 01:33:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 20:51:13.856323
Title: Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
Title（参考訳）: Quest: 長期LLMの効率的な推論のためのクエリ対応スポーサリティ
Authors: Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han,
Abstract要約: クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。 Questは最大2.23倍の自己注意速度を達成できることを示す。
参考スコア（独自算出の注目度）: 10.732268985320411
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the demand for long-context large language models (LLMs) increases, models with context windows of up to 128K or 1M tokens are becoming increasingly prevalent. However, long-context LLM inference is challenging since the inference speed decreases significantly as the sequence length grows. This slowdown is primarily caused by loading a large KV cache during self-attention. Previous works have shown that a small portion of critical tokens will dominate the attention outcomes. However, we observe the criticality of a token highly depends on the query. To this end, we propose Quest, a query-aware KV cache selection algorithm. Quest keeps track of the minimal and maximal Key values in KV cache pages and estimates the criticality of a given page using Query vectors. By only loading the Top-K critical KV cache pages for attention, Quest significantly speeds up self-attention without sacrificing accuracy. We show that Quest can achieve up to 2.23x self-attention speedup, which reduces inference latency by 7.03x while performing well on tasks with long dependencies with negligible accuracy loss. Code is available at http://github.com/mit-han-lab/Quest .
Abstract（参考訳）: 長文大言語モデル(LLM)の需要が増大するにつれて、最大128Kまたは1Mトークンのコンテキストウィンドウを持つモデルはますます広まりつつある。しかし、長文LLM推論は、シーケンス長が大きくなるにつれて推論速度が大幅に低下するため、困難である。このスローダウンは、主に自己アテンション中に大きなKVキャッシュをロードすることに起因する。以前の研究では、重要なトークンのごく一部が注意結果を支配していることが示されている。しかし,トークンの臨界度はクエリに大きく依存している。そこで本研究では,クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。 Questは、KVキャッシュページ内の最小かつ最大キー値を追跡し、クエリベクタを使用して、所定のページの臨界度を推定する。注意のためにTop-KクリティカルなKVキャッシュページだけをロードすることで、Questは正確さを犠牲にすることなく、自己アテンションを大幅に高速化する。 Questは最大2.23倍のセルフアテンションスピードアップを実現でき、推論の遅延を7.03倍削減できると同時に、無視できる精度の損失のある長いタスクでも良好に動作可能であることを示す。コードはhttp://github.com/mit-han-lab/Questで入手できる。

関連論文リスト

LeanK: Learnable K Cache Channel Pruning for Efficient Decoding [12.370497592637179]
大きな言語モデル(LLM)は、長いコンテキストタスクを可能にするが、キーバリュー(KV)キャッシュの増加による効率上の問題に直面している。本稿では,静的チャネル空間を利用して重要でないキー(K)キャッシュチャネルを創り出す学習ベースの手法であるLeanKを提案する。
論文参考訳（メタデータ） (2025-08-04T09:08:43Z)
LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。 SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文参考訳（メタデータ） (2025-03-11T20:45:02Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.20856449846164]
TokenSelectは、モデルに依存しない、訓練のない、効率的で正確な長文推論手法である。 TokenSelectの総合評価では、注意点の最大23.84倍、エンドツーエンドのレイテンシの最大2.28倍の高速化が示されている。
論文参考訳（メタデータ） (2024-11-05T07:56:24Z)
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads [22.462489968597]
すべての注目ヘッドにキーとバリューの状態をキャッシュすると、かなりのメモリが消費される。我々は,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,全KVキャッシュのみを検索ヘッドに適用するフレームワークであるDuoAttentionを紹介する。 GQAモデルでは,MHAでは2.55倍,GQAでは1.67倍の長文推論メモリが大幅に削減される。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs [8.649971923487835]
本稿では,CritiPrefillを提案する。 CritiPrefillは、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割する。複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、単一のA100 GPUで128Kのコンテキスト長を持つ。
論文参考訳（メタデータ） (2024-09-19T06:09:56Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
論文参考訳（メタデータ） (2024-07-01T13:05:42Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。