Fugu-MT 論文翻訳(概要): Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

論文の概要: Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

arxiv url: http://arxiv.org/abs/2407.18003v4
Date: Wed, 20 Nov 2024 02:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.581115
Title: Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption
Title（参考訳）: コストを下げ続ける - LLMのKVキャッシュ消費を最適化する方法のレビュー
Authors: Luohe Shi, Hongyi Zhang, Yao Yao, Zuchao Li, Hai Zhao,
Abstract要約: 大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
参考スコア（独自算出の注目度）: 66.97998742151918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs), epitomized by ChatGPT's release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture's struggle with handling long texts. KV Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV Cache compression methods have been proposed. In this review, we dissect the various properties of KV Cache and elaborate on various methods currently used to optimize the KV Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field. Links to the papers mentioned in this review can be found in our Github Repo https://github.com/zcli-charlie/Awesome-KV-Cache.
Abstract（参考訳）: 2022年末にChatGPTがリリースした大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、会話の長さに比例したGPUメモリオーバーヘッドの増加にもかかわらず、2次から線形へのトークン生成の時間的複雑さを変換する、この問題に対する重要なソリューションとして登場した。 LLMコミュニティとアカデミアの発展に伴い、様々なKVキャッシュ圧縮手法が提案されている。本稿では、KVキャッシュの諸特性を解析し、現在、LLMのKVキャッシュ空間利用を最適化するために使われている様々な手法について詳述する。これらの手法は, 事前学習フェーズ, 展開フェーズ, 推論フェーズにまたがっており, これらの手法の共通点と相違点を要約する。さらに、効率性と能力の観点から、大規模言語モデルの長文能力を評価するための指標をいくつか挙げる。本稿では, LLM最適化の進化する展望を概観し, このダイナミックな分野における今後の進歩について考察する。このレビューで言及されている論文へのリンクは、Github Repo https://github.com/zcli-charlie/Awesome-KV-Cacheにある。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference [7.894452711850396]
KVShareは、セマンティックな類似性に基づくマルチユーザキーバリュー(KV)キャッシュ共有技術である。 LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の推論効率を向上させるように設計されている。
論文参考訳（メタデータ） (2025-03-17T16:43:35Z)
KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [35.97391418064724]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。 KVLinkは、連結後のグローバルな位置と一致するように、KVキャッシュの位置埋め込みを調整すること、トレーニング可能な特別なトークンを使用して自己アテンションを復元すること、混合データ微調整を適用すること、の3つの重要なコンポーネントを導入している。 7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文参考訳（メタデータ） (2025-02-21T23:34:29Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference [41.149350870029046]
キー値(KV)キャッシュは大規模言語モデル(LLM)の効率的な推論に有効であることが判明した。本稿では,近年の手法とその新しいバリエーションを網羅する統一フレームワークを提案する。 KVキャッシュのサイズを2倍にすると、ほとんどの構成は、標準的なトランスよりも競合性能と高いスループットを達成することができる。
論文参考訳（メタデータ） (2024-10-18T13:01:14Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文参考訳（メタデータ） (2024-05-17T08:59:46Z)
Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。 KVキャッシュ技術は業界で最も広く使われている技術の一つである。本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文参考訳（メタデータ） (2024-04-28T03:11:42Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。