論文の概要: On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference
- arxiv url: http://arxiv.org/abs/2402.06262v1
- Date: Fri, 9 Feb 2024 09:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:27:00.513833
- Title: On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference
- Title(参考訳): キーバリュー制約付き生成言語モデル推論におけるエビテーションポリシーの有効性について
- Authors: Siyu Ren, Kenny Q. Zhu
- Abstract要約: 大規模言語モデルは、リソース制約のある環境にデプロイするのにコストがかかる。
時間的注意スコアとロバストネス尺度に基づくポリシーであるRoCoを紹介する。
ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
- 参考スコア(独自算出の注目度): 40.789027180025286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success associated with Large Language Models~(LLMs), they
are notably cost-prohibitive to deploy in resource-constrained environments due
to their excessive memory and computational demands. In addition to model
parameters, the key-value cache is also stored in GPU memory, growing linearly
with batch size and sequence length. As a remedy, recent works have proposed
various eviction policies for maintaining the overhead of key-value cache under
a given budget. This paper embarks on the efficacy of existing eviction
policies in terms of \textit{importance score calculation} and \textit{eviction
scope construction}. We identify the deficiency of prior policies in these two
aspects and introduce RoCo, a \underline{r}\underline{o}bust \underline{c}ache
\underline{o}mission policy based on temporal attention scores and robustness
measures. Extensive experimentation spanning prefilling and auto-regressive
decoding stages validates the superiority of RoCo. Finally, we release EasyKV,
a versatile software package dedicated to user-friendly key-value constrained
generative inference. Code available at \url{https://github.com/DRSY/EasyKV}.
- Abstract(参考訳): 近年のLarge Language Models~(LLMs)による成功にもかかわらず、過剰なメモリと計算要求のため、リソース制約のある環境でのデプロイには特にコストがかかる。
モデルパラメータに加えて、キー値キャッシュもGPUメモリに格納され、バッチサイズとシーケンス長とともに線形に成長する。
対策として、近年の研究では、所定の予算の下でキーバリューキャッシュのオーバーヘッドを維持するための様々な制限ポリシーが提案されている。
本稿では,既存のevictionポリシーの有効性について,\textit{importance score calculation} と \textit{eviction scope construction} を用いて検討する。
この2つの側面から先行政策の欠如を特定し,時間的注意スコアとロバスト性尺度に基づいて,roco,a \underline{r}\underline{o}bust \underline{c}ache \underline{o}mission policyを導入する。
予備充填と自己回帰復号段階にまたがる大規模な実験は、RoCoの優位性を検証する。
最後に、ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
コードは \url{https://github.com/drsy/easykv}。
関連論文リスト
- Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning [1.7886826917274343]
GPC(Grid-Mapping Pseudo-Count Method)と呼ばれる,連続ドメインのための新しいカウントベース手法を提案する。
GPCは他のアルゴリズムに比べて性能が良く、計算コストも低い。
論文 参考訳(メタデータ) (2024-04-03T08:03:27Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel [46.373217780462944]
EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。
EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
論文 参考訳(メタデータ) (2023-06-09T12:45:41Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。