論文の概要: On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference
- arxiv url: http://arxiv.org/abs/2402.06262v1
- Date: Fri, 9 Feb 2024 09:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:27:00.513833
- Title: On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference
- Title(参考訳): キーバリュー制約付き生成言語モデル推論におけるエビテーションポリシーの有効性について
- Authors: Siyu Ren, Kenny Q. Zhu
- Abstract要約: 大規模言語モデルは、リソース制約のある環境にデプロイするのにコストがかかる。
時間的注意スコアとロバストネス尺度に基づくポリシーであるRoCoを紹介する。
ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
- 参考スコア(独自算出の注目度): 40.789027180025286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success associated with Large Language Models~(LLMs), they
are notably cost-prohibitive to deploy in resource-constrained environments due
to their excessive memory and computational demands. In addition to model
parameters, the key-value cache is also stored in GPU memory, growing linearly
with batch size and sequence length. As a remedy, recent works have proposed
various eviction policies for maintaining the overhead of key-value cache under
a given budget. This paper embarks on the efficacy of existing eviction
policies in terms of \textit{importance score calculation} and \textit{eviction
scope construction}. We identify the deficiency of prior policies in these two
aspects and introduce RoCo, a \underline{r}\underline{o}bust \underline{c}ache
\underline{o}mission policy based on temporal attention scores and robustness
measures. Extensive experimentation spanning prefilling and auto-regressive
decoding stages validates the superiority of RoCo. Finally, we release EasyKV,
a versatile software package dedicated to user-friendly key-value constrained
generative inference. Code available at \url{https://github.com/DRSY/EasyKV}.
- Abstract(参考訳): 近年のLarge Language Models~(LLMs)による成功にもかかわらず、過剰なメモリと計算要求のため、リソース制約のある環境でのデプロイには特にコストがかかる。
モデルパラメータに加えて、キー値キャッシュもGPUメモリに格納され、バッチサイズとシーケンス長とともに線形に成長する。
対策として、近年の研究では、所定の予算の下でキーバリューキャッシュのオーバーヘッドを維持するための様々な制限ポリシーが提案されている。
本稿では,既存のevictionポリシーの有効性について,\textit{importance score calculation} と \textit{eviction scope construction} を用いて検討する。
この2つの側面から先行政策の欠如を特定し,時間的注意スコアとロバスト性尺度に基づいて,roco,a \underline{r}\underline{o}bust \underline{c}ache \underline{o}mission policyを導入する。
予備充填と自己回帰復号段階にまたがる大規模な実験は、RoCoの優位性を検証する。
最後に、ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
コードは \url{https://github.com/drsy/easykv}。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time [44.89402186438295]
大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。
しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。
我々は,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための一般的なフレームワークであるNACLを提案する。
論文 参考訳(メタデータ) (2024-08-07T10:31:07Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々な分野で優れているが、メモリと時間効率の課題に直面している。
最近の取り組みでは、KVキャッシュのサイズを所定のメモリ予算に減らし、実行中に巨大な非クリティカルキャッシュ要素を排除しようとしている。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。