論文の概要: Optimizing KV Cache Eviction in LLMs: Adaptive Allocation for Enhanced Budget Utilization
- arxiv url: http://arxiv.org/abs/2407.11550v1
- Date: Tue, 16 Jul 2024 09:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:42:36.527422
- Title: Optimizing KV Cache Eviction in LLMs: Adaptive Allocation for Enhanced Budget Utilization
- Title(参考訳): LLMにおけるKVキャッシュの最適化:予算削減のための適応配置
- Authors: Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou,
- Abstract要約: 大規模言語モデルは様々な分野で優れているが、推論に必要な広範なKVキャッシュのために効率の限界に直面している。
本稿では, 従来の一様割当手法よりも上限の損失を理論的に保証するだけでなく, 自己アテンション機構の特性と効果的に整合する, 単純かつ効果的な適応割当アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.447729423696096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have excelled in various fields but encounter efficiency limitations due to the extensive KV cache required for long sequences inference. Many efforts try to evict non-critical cache elements during runtime, thereby reducing cache size within a given memory budget while preserving generation quality. Our reexamination of their underlying principles discerns that prevailing strategies essentially aim to minimize an upper bound of eviction loss within a specific budget allocation. However, we observe that the current practice of uniformly allocating budgets across different attention heads during the eviction procedure tends to degrade the quality of generation posten-eviction. In light of these findings, we propose a simple yet effective adaptive allocation algorithm that not only theoretically ensures its loss upper bound does not exceed that of previous uniform allocation methods, but also effectively aligns with the characteristics of the self-attention mechanism, thus practically reducing the upper bound. Further, integrating this algorithm with two of the most advanced methods yields Ada-SnapKV and Ada-Pyramid. Extensive experimental validation across 16 datasets and the Needle-in-a-Haystack test confirm that Ada-SnapKV and Ada-Pyramid achieve further enhancements, establishing new benchmarks in state-of-the-art performance.
- Abstract(参考訳): 大規模言語モデルは様々な分野で優れているが、長いシーケンス推論に必要な広範なKVキャッシュのために効率の限界に直面している。
多くの取り組みは、実行中に非クリティカルなキャッシュ要素を排除し、生成品質を維持しながら、所定のメモリ予算内でキャッシュサイズを削減しようとしている。
我々の根底にある原則の再検討は、戦略が基本的に特定の予算配分内での排除損失の上限の上限を最小化することを目的としていることを明確にしている。
しかし,現在実施されている,異なる注意点にまたがる予算均等化の実践は,世代別ポストエミッションの質を低下させる傾向にある。
これらの結果を踏まえ, 従来の一様割当手法の損失上限を理論的に超過せず, 自己保持機構の特性と効果的に整合し, 上限を実質的に低減する, 単純かつ効果的な適応的割当アルゴリズムを提案する。
さらに、このアルゴリズムを最も進んだ2つの方法に統合すると、Ada-SnapKVとAda-Pyramidが得られる。
16のデータセットとNeedle-in-a-Haystackテストにわたる大規模な実験的検証は、Ada-SnapKVとAda-Pyramidがさらなる拡張を実現し、最先端のパフォーマンスの新たなベンチマークを確立することを確認している。
関連論文リスト
- D2O: Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models [14.665924387149014]
LLM(Large Language Models)における効率的な推論は、キー値(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、コンテキスト損失や幻覚などの問題を引き起こす。
本稿では,KVキャッシュサイズを微調整せずに最適化するための2段階判別手法である動的識別操作(D2O)を紹介する。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z) - Predictor-Rejector Multi-Class Abstention: Theoretical Analysis and Algorithms [30.389055604165222]
マルチクラス分類設定において,留意を伴う学習の鍵となる枠組みについて検討する。
この設定では、学習者は事前に定義されたコストで予測をしないことを選択できる。
我々は、強い非漸近的および仮説的整合性を保証するために、いくつかの新しい代理損失の族を導入する。
論文 参考訳(メタデータ) (2023-10-23T10:16:27Z) - Budgeted Classification with Rejection: An Evolutionary Method with
Multiple Objectives [0.0]
予算付きシーケンシャル分類器(BSC)プロセスは、部分的特徴取得と評価ステップのシーケンスを通じて入力を行う。
これにより、不要な特徴取得を防止するための入力の効率的な評価が可能になる。
本稿では,信頼度に基づく拒否オプション付き逐次分類器を構築するための問題固有遺伝的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-01T22:05:16Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Evolutionary Optimization of High-Coverage Budgeted Classifiers [1.7767466724342065]
予算付き多機能分類器(MSC)プロセスは、部分的特徴取得および評価ステップのシーケンスを通じて入力される。
本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有MSCを提案する。
アルゴリズムの設計は、一意化による集約性能の概念を尊重しながら効率を重視している。
論文 参考訳(メタデータ) (2021-10-25T16:03:07Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。