論文の概要: NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time
- arxiv url: http://arxiv.org/abs/2408.03675v2
- Date: Thu, 8 Aug 2024 01:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 12:41:05.262830
- Title: NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time
- Title(参考訳): NACL: 推論時のLLMのための汎用的で効果的なKVキャッシュ検証フレームワーク
- Authors: Yilong Chen, Guoxia Wang, Junyuan Shang, Shiyao Cui, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun, Dianhai Yu, Hua Wu,
- Abstract要約: 大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。
しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。
我々は,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための一般的なフレームワークであるNACLを提案する。
- 参考スコア(独自算出の注目度): 44.89402186438295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have ignited an innovative surge of AI applications, marking a new era of exciting possibilities equipped with extended context windows. However, hosting these models is cost-prohibitive mainly due to the extensive memory consumption of KV Cache involving long-context modeling. Despite several works proposing to evict unnecessary tokens from the KV Cache, most of them rely on the biased local statistics of accumulated attention scores and report performance using unconvincing metric like perplexity on inadequate short-text evaluation. In this paper, we propose NACL, a general framework for long-context KV cache eviction that achieves more optimal and efficient eviction in a single operation during the encoding phase. Due to NACL's efficiency, we combine more accurate attention score statistics in PROXY TOKENS EVICTION with the diversified random eviction strategy of RANDOM EVICTION, aiming to alleviate the issue of attention bias and enhance the robustness in maintaining pivotal tokens for long-context modeling tasks. Notably, our method significantly improves the performance on short- and long-text tasks by 80% and 76% respectively, reducing KV Cache by up to 50% with over 95% performance maintenance. The code is available at https://github.com/PaddlePaddle/Research/tree/master/NLP/ACL2024-NACL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。
しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。
KVキャッシュから不要なトークンを取り除こうとする研究はいくつかあるが、そのほとんどは、蓄積された注目スコアの偏りのある局所統計と、不適切な短文評価における難易度のような未解決の指標を用いた報告性能に依存している。
本稿では,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための汎用フレームワークであるNACLを提案する。
NACLの効率性から,PROXY TOKENS EVICTIONにおけるより正確なアテンションスコア統計とRANDOM EVICTIONの多角化ランダム消去戦略を組み合わせ,アテンションバイアスの問題を緩和し,長文モデリングタスクにおける重要なトークンの維持におけるロバスト性を高めることを目的とした。
特に,本手法では,短文タスクと長文タスクのパフォーマンスをそれぞれ80%,短文タスクを76%向上させ,KVキャッシュを最大50%削減し,95%以上の性能維持を実現した。
コードはhttps://github.com/PaddlePaddle/Research/tree/master/NLP/ACL2024-NACLで公開されている。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれるパラメータ化KVキャッシュ消去機構を考案する。
Attention-Gateは、コンテキスト全体を入力として受け入れ、各トークンにエビテーションフラグを出力して、インコンテキストのエビエーションを実現する。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。