Fugu-MT 論文翻訳(概要): Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

論文の概要: Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

arxiv url: http://arxiv.org/abs/2407.11550v2
Date: Sun, 21 Jul 2024 14:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 00:02:42.590778
Title: Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference
Title（参考訳）: Ada-KV:効率的なLLM推論のための適応的予算割当によるKVキャッシュ推定の最適化
Authors: Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou,
Abstract要約: 大規模言語モデルは様々な分野で優れていますが、推論に必要なキーバリュー(KV)キャッシュのために効率の限界に直面しています。最近の取り組みでは、実行中に非クリティカルなキャッシュ要素を排除し、生成品質を維持しながら、所定のメモリ予算内でのキャッシュサイズを削減しようとしている。本稿では, 単純かつ効果的な適応型予算割当アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 19.447729423696096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models have excelled in various fields but encounter efficiency limitations due to the substantial Key-Value (KV) cache required for long-sequence inference. Recent efforts try to evict non-critical cache elements during runtime, thereby reducing cache size within given memory budgets while preserving generation quality. Our reexamination of foundational principles reveals that prevailing methods aim to minimize an upper bound of eviction loss, quantified as the L1 distance between the pre- and post-eviction outputs of multi-head self-attention mechanisms. Moreover, our analysis indicates that the common practices of uniformly assigning budgets across different attention heads during cache eviction hinder their budget utilization, negatively impacting generation quality. In light of these findings, we propose a simple yet effective adaptive budget allocation algorithm. This algorithm not only optimizes the loss upper bound in theory but also reduces the eviction loss in practice by aligning with the intrinsic patterns of self-attention mechanisms. Integrating this algorithm into two advanced methods, we develop Ada-SnapKV and Ada-Pyramid. Extensive evaluations on 16 datasets and the Needle-in-a-Haystack test confirm that they both significantly boost performance across various tasks.
Abstract（参考訳）: 大規模言語モデルは様々な分野で優れていますが、長いシーケンス推論に必要なキーバリュー(KV)キャッシュのために効率の限界に直面しています。最近の取り組みでは、実行中に非クリティカルなキャッシュ要素を排除し、生成品質を維持しながら、所定のメモリ予算内でのキャッシュサイズを削減しようとしている。基本原理の再検討により,多頭部自己認識機構の事前推定出力と後推定出力とのL1距離として定量化され,高次消去損失の上限を最小化することを目的としていることが明らかとなった。さらに,キャッシュ消去時に異なる注意点にまたがる予算を均一に割り当てるという一般的な手法は,その予算利用を阻害し,生成品質に悪影響を及ぼすことが示唆された。これらの結果を踏まえて, 単純かつ効果的な適応型予算割当アルゴリズムを提案する。このアルゴリズムは、理論上界の損失を最適化するだけでなく、本質的な自己認識機構のパターンと整合させることにより、現実の逸脱を減らす。このアルゴリズムを2つの高度な手法に統合し、Ada-SnapKVとAda-Pyramidを開発した。 16のデータセットとNeedle-in-a-Haystackテストに対する大規模な評価は、どちらもさまざまなタスクのパフォーマンスを大幅に向上させることを確認した。

関連論文リスト

Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation [28.78295040602572]
SCOPEは、プリフィルとデコードフェーズでKVキャッシュを最適化するフレームワークである。メモリ使用量とメモリ転送は、適応的かつ不連続な戦略によってさらに最適化される。 LongGenBenchの実験はSCOPEの有効性と一般化を示している。
論文参考訳（メタデータ） (2024-12-18T09:27:33Z)
Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文参考訳（メタデータ） (2024-12-05T22:47:17Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。本稿では,Attention-Gateと呼ばれるパラメータ化KVキャッシュ消去機構を考案する。 Attention-Gateは、コンテキスト全体を入力として受け入れ、各トークンにエビテーションフラグを出力して、インコンテキストのエビエーションを実現する。
論文参考訳（メタデータ） (2024-10-15T05:01:19Z)
NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time [44.89402186438295]
大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。我々は,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための一般的なフレームワークであるNACLを提案する。
論文参考訳（メタデータ） (2024-08-07T10:31:07Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
D2O: Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models [14.665924387149014]
LLM(Large Language Models)における効率的な推論は、キー値(KV)キャッシュのメモリ要求の増加によって妨げられる。従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、コンテキスト損失や幻覚などの問題を引き起こす。本稿では,KVキャッシュサイズを微調整せずに最適化するための2段階判別手法である動的識別操作(D2O)を紹介する。
論文参考訳（メタデータ） (2024-06-18T20:01:51Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。提案アルゴリズムの有効性と有効性を示す実験を行った。
論文参考訳（メタデータ） (2020-11-04T16:49:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。