論文の概要: H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models
- arxiv url: http://arxiv.org/abs/2306.14048v3
- Date: Mon, 18 Dec 2023 19:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 00:32:18.605077
- Title: H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models
- Title(参考訳): h$_2$o: 大きな言語モデルの効率的な生成推論のための重いoracle
- Authors: Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng,
Ruisi Cai, Zhao Song, Yuandong Tian, Christopher R\'e, Clark Barrett,
Zhangyang Wang, Beidi Chen
- Abstract要約: メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
- 参考スコア(独自算出の注目度): 110.06476624089679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite their recent impressive
accomplishments, are notably cost-prohibitive to deploy, particularly for
applications involving long-content generation, such as dialogue systems and
story writing. Often, a large amount of transient state information, referred
to as the KV cache, is stored in GPU memory in addition to model parameters,
scaling linearly with the sequence length and batch size. In this paper, we
introduce a novel approach for implementing the KV cache which significantly
reduces its memory footprint. Our approach is based on the noteworthy
observation that a small portion of tokens contributes most of the value when
computing attention scores. We call these tokens Heavy Hitters (H$_2$). Through
a comprehensive investigation, we find that (i) the emergence of H$_2$ is
natural and strongly correlates with the frequent co-occurrence of tokens in
the text, and (ii) removing them results in significant performance
degradation. Based on these insights, we propose Heavy Hitter Oracle (H$_2$O),
a KV cache eviction policy that dynamically retains a balance of recent and
H$_2$ tokens. We formulate the KV cache eviction as a dynamic submodular
problem and prove (under mild assumptions) a theoretical guarantee for our
novel eviction algorithm which could help guide future work. We validate the
accuracy of our algorithm with OPT, LLaMA, and GPT-NeoX across a wide range of
tasks. Our implementation of H$_2$O with 20% heavy hitters improves the
throughput over three leading inference systems DeepSpeed Zero-Inference,
Hugging Face Accelerate, and FlexGen by up to 29$\times$, 29$\times$, and
3$\times$ on OPT-6.7B and OPT-30B. With the same batch size, H2O can reduce the
latency by up to 1.9$\times$. The code is available at
https://github.com/FMInference/H2O.
- Abstract(参考訳): 大規模な言語モデル(llm)は、最近の印象的な成果にもかかわらず、特に、対話システムやストーリーライティングなど、長期コンテンツ生成を含むアプリケーションにおいて、デプロイにコストがかかる。
多くの場合、KVキャッシュと呼ばれる大量の過渡状態情報は、モデルパラメータに加えてGPUメモリに格納され、シーケンス長とバッチサイズに線形にスケーリングされる。
本稿では,KVキャッシュの実装において,メモリフットプリントを大幅に削減する新しい手法を提案する。
我々のアプローチは、少数のトークンが注目度を計算する際に価値の大半に貢献するという注目すべき観察に基づいています。
これらのトークンをヘビーヒッター (H$_2$) と呼ぶ。
包括的な調査を通じて
(i)h$_2$の出現は自然であり、テキスト中のトークンの頻繁な共起と強い相関がある。
(ii) 除去すると性能が著しく低下する。
これらの知見に基づき、我々は、最近およびh$_2$トークンのバランスを動的に保持するkvキャッシュ退避ポリシーであるヘビーヒットオラクル(h$_2$o)を提案する。
我々はKVキャッシュ消去を動的部分モジュラー問題として定式化し、将来的な作業のガイドとなる新しい消去アルゴリズムの理論的保証を(軽微な仮定の下で)証明する。
我々は,OPT,LLaMA,GPT-NeoXを用いて,幅広いタスクでアルゴリズムの精度を検証する。
OPT-6.7B と OPT-30B で、最大 29$\times$, 29$\times$, 3$\times$ の3つの主要な推論システム、DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen のスループットを改善しました。
同じバッチサイズで、H2Oはレイテンシを最大1.9$\times$まで削減できる。
コードはhttps://github.com/fminference/h2oで入手できる。
関連論文リスト
- Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - One Pass Streaming Algorithm for Super Long Token Attention
Approximation in Sublinear Space [11.735802740426294]
注意計算は、$O(n2)$の時間複雑性と$O(n2)$の空間複雑性を同時に行う。
ストリーミング方式で1パスのデータのみを読み取る新しいアルゴリズムを導入する。
特に,本アルゴリズムは,超長期トークンを用いたメモリ効率の優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:35:00Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。