Fugu-MT 論文翻訳(概要): In-context KV-Cache Eviction for LLMs via Attention-Gate

論文の概要: In-context KV-Cache Eviction for LLMs via Attention-Gate

arxiv url: http://arxiv.org/abs/2410.12876v2
Date: Sat, 19 Oct 2024 08:45:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.543164
Title: In-context KV-Cache Eviction for LLMs via Attention-Gate
Title（参考訳）: 注意ゲートによるLCMのインコンテキストKVキャッシュ推定
Authors: Zihao Zeng, Bokai Lin, Tianqi Hou, Hao Zhang, Zhijie Deng,
Abstract要約: KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。本稿では,Attention-Gateと呼ばれるパラメータ化KVキャッシュ消去機構を考案する。 Attention-Gateは、コンテキスト全体を入力として受け入れ、各トークンにエビテーションフラグを出力して、インコンテキストのエビエーションを実現する。
参考スコア（独自算出の注目度）: 12.732519329131392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The KV-Cache technique has become the standard for the inference of large language models (LLMs). It caches states of self-attention to avoid recomputation. Yet, it is widely criticized that KV-Cache can become a bottleneck of the LLM inference system, especially when confronted with ultra-large models and long-context queries. A natural remedy is to discard the KV-Cache for less important tokens, with StreamingLLM as an example, but the used static eviction strategies cannot flexibly adapt to varying contexts. Remedies like H2O leverage accumulative attention scores to perform dynamic eviction but suffer from the attention bias issue in capturing contextual information. This paper bridges this gap by devising a parameterized KV-Cache eviction mechanism, dubbed as Attention-Gate, which accepts the whole context as input and yields eviction flags for each token to realize in-context eviction. The subsequent self-attention module proceeds according to the flags and only the KV states for the remaining tokens need to be cached. The Attention-Gates can vary among different heads and layers and be trivially plugged into pre-trained LLMs, tuned by cost-effective continual pre-training or supervised fine-tuning objectives to acquire what to discard. The computational and memory overhead introduced by Attention-Gates is minimal. Our method is validated across multiple tasks, demonstrating both efficiency and adaptability. After a highly efficient continual pre-training, it achieves higher average accuracy and evicts more tokens compared to traditional training-free methods. In supervised fine-tuning, it not only evicts many tokens but also outperforms LoRA-finetuned LLMs on some datasets, such as RTE, where it improves accuracy by 13.9% while evicting 62.8% of tokens, showing that effective eviction of redundant tokens can even enhance performance.
Abstract（参考訳）: KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。再計算を避けるために、自己アテンションの状態をキャッシュする。しかし、特に超大型モデルや長文クエリに直面する場合、KVキャッシュがLLM推論システムのボトルネックとなることは広く批判されている。自然な対策は、StreamingLLMを例に、KV-Cacheをあまり重要でないトークンで破棄することだ。 H2Oのような治療法は、蓄積された注意スコアを利用して動的消去を行うが、文脈情報を取得する際に注意バイアスの問題に悩まされる。本稿では,パラメータ化されたKVキャッシュの消去機構を考案し,コンテキスト全体を入力として受け入れ,各トークンの消去フラグを出力し,コンテキスト内消去を実現することにより,このギャップを埋める。その後の自己保持モジュールはフラグに従って進行し、残りのトークンのKV状態のみがキャッシュされる必要がある。アテンション・ゲイツは、異なる頭や層によって異なり、コスト効率のよい連続的な事前訓練または監督された微調整の目的によって調整された事前訓練されたLLMに自明に接続して、捨てるべきものを取得することができる。 Attention-Gatesによって導入された計算とメモリのオーバーヘッドは最小限である。提案手法は複数のタスクにまたがって検証され,効率と適応性の両方を実証する。高度に効率的な継続事前トレーニングの後、従来のトレーニング不要の手法と比較して平均精度を高め、より多くのトークンを除去する。監督された微調整では、多くのトークンを除去するだけでなく、RTEなど一部のデータセットでLORAに精細化されたLSMよりも優れており、62.8%のトークンを排除しながら精度を13.9%向上させ、冗長トークンの効果的な排除が性能を向上させることさえ示している。

関連論文リスト

AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-03-31T11:13:18Z)
CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。 CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文参考訳（メタデータ） (2025-03-16T12:49:44Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time [44.89402186438295]
大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。我々は,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための一般的なフレームワークであるNACLを提案する。
論文参考訳（メタデータ） (2024-08-07T10:31:07Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々な分野で優れているが、メモリと時間効率の課題に直面している。最近の取り組みでは、KVキャッシュのサイズを所定のメモリ予算に減らし、実行中に巨大な非クリティカルキャッシュ要素を排除しようとしている。
論文参考訳（メタデータ） (2024-07-16T09:53:32Z)
D2O: Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models [14.665924387149014]
LLM(Large Language Models)における効率的な推論は、キー値(KV)キャッシュのメモリ要求の増加によって妨げられる。従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、コンテキスト損失や幻覚などの問題を引き起こす。本稿では,KVキャッシュサイズを微調整せずに最適化するための2段階判別手法である動的識別操作(D2O)を紹介する。
論文参考訳（メタデータ） (2024-06-18T20:01:51Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。