論文の概要: Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption
- arxiv url: http://arxiv.org/abs/2407.18003v4
- Date: Wed, 20 Nov 2024 02:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:48.739604
- Title: Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption
- Title(参考訳): コストを下げ続ける - LLMのKVキャッシュ消費を最適化する方法のレビュー
- Authors: Luohe Shi, Hongyi Zhang, Yao Yao, Zuchao Li, Hai Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
- 参考スコア(独自算出の注目度): 66.97998742151918
- License:
- Abstract: Large Language Models (LLMs), epitomized by ChatGPT's release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture's struggle with handling long texts. KV Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV Cache compression methods have been proposed. In this review, we dissect the various properties of KV Cache and elaborate on various methods currently used to optimize the KV Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field. Links to the papers mentioned in this review can be found in our Github Repo https://github.com/zcli-charlie/Awesome-KV-Cache.
- Abstract(参考訳): 2022年末にChatGPTがリリースした大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、会話の長さに比例したGPUメモリオーバーヘッドの増加にもかかわらず、2次から線形へのトークン生成の時間的複雑さを変換する、この問題に対する重要なソリューションとして登場した。
LLMコミュニティとアカデミアの発展に伴い、様々なKVキャッシュ圧縮手法が提案されている。
本稿では、KVキャッシュの諸特性を解析し、現在、LLMのKVキャッシュ空間利用を最適化するために使われている様々な手法について詳述する。
これらの手法は, 事前学習フェーズ, 展開フェーズ, 推論フェーズにまたがっており, これらの手法の共通点と相違点を要約する。
さらに、効率性と能力の観点から、大規模言語モデルの長文能力を評価するための指標をいくつか挙げる。
本稿では, LLM最適化の進化する展望を概観し, このダイナミックな分野における今後の進歩について考察する。
このレビューで言及されている論文へのリンクは、Github Repo https://github.com/zcli-charlie/Awesome-KV-Cacheにある。
関連論文リスト
- A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference [41.149350870029046]
キー値(KV)キャッシュは大規模言語モデル(LLM)の効率的な推論に有効であることが判明した。
本稿では,近年の手法とその新しいバリエーションを網羅する統一フレームワークを提案する。
KVキャッシュのサイズを2倍にすると、ほとんどの構成は、標準的なトランスよりも競合性能と高いスループットを達成することができる。
論文 参考訳(メタデータ) (2024-10-18T13:01:14Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z) - Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。
KVキャッシュ技術は業界で最も広く使われている技術の一つである。
本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:42Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。