論文の概要: H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models
- arxiv url: http://arxiv.org/abs/2306.14048v2
- Date: Wed, 19 Jul 2023 06:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:55:17.929253
- Title: H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models
- Title(参考訳): h$_2$o: 大きな言語モデルの効率的な生成推論のための重いoracle
- Authors: Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng,
Ruisi Cai, Zhao Song, Yuandong Tian, Christopher R\'e, Clark Barrett,
Zhangyang Wang, Beidi Chen
- Abstract要約: メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
- 参考スコア(独自算出の注目度): 119.78901756054567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite their recent impressive
accomplishments, are notably cost-prohibitive to deploy, particularly for
applications involving long-content generation, such as dialogue systems and
story writing. Often, a large amount of transient state information, referred
to as the KV cache, is stored in GPU memory in addition to model parameters,
scaling linearly with the sequence length and batch size. In this paper, we
introduce a novel approach for implementing the KV cache which significantly
reduces its memory footprint. Our approach is based on the noteworthy
observation that a small portion of tokens contributes most of the value when
computing attention scores. We call these tokens Heavy Hitters (H$_2$). Through
a comprehensive investigation, we find that (i) the emergence of H$_2$ is
natural and strongly correlates with the frequent co-occurrence of tokens in
the text, and (ii) removing them results in significant performance
degradation. Based on these insights, we propose Heavy Hitter Oracle (H$_2$O),
a KV cache eviction policy that dynamically retains a balance of recent and
H$_2$ tokens. We formulate the KV cache eviction as a dynamic submodular
problem and prove (under mild assumptions) a theoretical guarantee for our
novel eviction algorithm which could help guide future work. We validate the
accuracy of our algorithm with OPT, LLaMA, and GPT-NeoX across a wide range of
tasks. Our implementation of H$_2$O with 20% heavy hitters improves the
throughput over three leading inference systems DeepSpeed Zero-Inference,
Hugging Face Accelerate, and FlexGen by up to 29$\times$, 29$\times$, and
3$\times$ on OPT-6.7B and OPT-30B. With the same batch size, H2O can reduce the
latency by up to 1.9$\times$. The code is available at
https://github.com/FMInference/H2O.
- Abstract(参考訳): 大規模な言語モデル(llm)は、最近の印象的な成果にもかかわらず、特に、対話システムやストーリーライティングなど、長期コンテンツ生成を含むアプリケーションにおいて、デプロイにコストがかかる。
多くの場合、KVキャッシュと呼ばれる大量の過渡状態情報は、モデルパラメータに加えてGPUメモリに格納され、シーケンス長とバッチサイズに線形にスケーリングされる。
本稿では,KVキャッシュの実装において,メモリフットプリントを大幅に削減する新しい手法を提案する。
我々のアプローチは、少数のトークンが注目度を計算する際に価値の大半に貢献するという注目すべき観察に基づいています。
これらのトークンをヘビーヒッター (H$_2$) と呼ぶ。
包括的な調査を通じて
(i)h$_2$の出現は自然であり、テキスト中のトークンの頻繁な共起と強い相関がある。
(ii) 除去すると性能が著しく低下する。
これらの知見に基づき、我々は、最近およびh$_2$トークンのバランスを動的に保持するkvキャッシュ退避ポリシーであるヘビーヒットオラクル(h$_2$o)を提案する。
我々はKVキャッシュ消去を動的部分モジュラー問題として定式化し、将来的な作業のガイドとなる新しい消去アルゴリズムの理論的保証を(軽微な仮定の下で)証明する。
我々は,OPT,LLaMA,GPT-NeoXを用いて,幅広いタスクでアルゴリズムの精度を検証する。
OPT-6.7B と OPT-30B で、最大 29$\times$, 29$\times$, 3$\times$ の3つの主要な推論システム、DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen のスループットを改善しました。
同じバッチサイズで、H2Oはレイテンシを最大1.9$\times$まで削減できる。
コードはhttps://github.com/fminference/h2oで入手できる。
関連論文リスト
- BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference [2.3587921104010756]
推論速度を高めつつキャッシュメモリ使用量を最小限に抑える新しいKVキャッシュアルゴリズムであるBUZZを提案する。
BUZZはビーハイブ構造化スパースキャッシュを採用し、スライディングウィンドウを組み込んで最近の情報をキャプチャする。
CNN/Daily Mail, XSUM, Wikitext, 10-QAの4つの実世界のデータセット上でBUZZを評価する。
論文 参考訳(メタデータ) (2024-10-30T14:53:37Z) - Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。
Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。
オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文 参考訳(メタデータ) (2024-08-11T18:40:36Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。