論文の概要: A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2410.14442v1
- Date: Fri, 18 Oct 2024 13:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:35.383612
- Title: A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference
- Title(参考訳): 効率的なLDM推論のための層間KV共有方式の一検討
- Authors: You Wu, Haoyi Wu, Kewei Tu,
- Abstract要約: キー値(KV)キャッシュは大規模言語モデル(LLM)の効率的な推論に有効であることが判明した。
本稿では,近年の手法とその新しいバリエーションを網羅する統一フレームワークを提案する。
KVキャッシュのサイズを2倍にすると、ほとんどの構成は、標準的なトランスよりも競合性能と高いスループットを達成することができる。
- 参考スコア(独自算出の注目度): 41.149350870029046
- License:
- Abstract: Recently, sharing key-value (KV) cache across layers has been found effective in efficient inference of large language models (LLMs). To systematically investigate different techniques of cross-layer KV sharing, we propose a unified framework that covers several recent methods and their novel variants. We conduct comprehensive experiments on all the configurations of the framework, evaluating their generation throughput and performance in language modeling and downstream tasks. We find that when reducing the size of the KV cache by 2x, most configurations can achieve competitive performance to and higher throughput than standard transformers, but when further reducing the size of the KV cache, pairing queries of all layers with KVs of upper layers can better maintain performance, although it also introduces additional training cost and prefilling latency. We hope that this work will help users choose the appropriate approach according to their requirements and facilitate research on the acceleration of LLM inference.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の効率的な推論には,階層間のキー値キャッシュ(KV)の共有が有効であることが判明している。
層間KV共有の異なる手法を体系的に検討するため,近年の手法とその新しいバリエーションを網羅する統一フレームワークを提案する。
フレームワークのすべての構成について包括的な実験を行い、言語モデリングや下流タスクにおけるその生成スループットと性能を評価します。
KVキャッシュのサイズを2倍にすると、ほとんどの構成は標準的なトランスフォーマーよりも競合性能と高いスループットを達成することができるが、KVキャッシュをさらに小さくすると、上位層のKVと全てのレイヤのペアリングクエリのパフォーマンスが向上するが、追加のトレーニングコストとプレフィル遅延ももたらされる。
本研究は,利用者の要求に応じて適切なアプローチの選択を支援し,LLM推論の高速化に関する研究を促進することを期待する。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - A Survey on Large Language Model Acceleration based on KV Cache Management [21.4802409745396]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、幅広い領域に革命をもたらした。
LLMの計算とメモリ要求は、それらを現実世界、長期コンテキスト、リアルタイムアプリケーションにスケールする際に大きな課題を生じさせる。
このサーベイは、LLMアクセラレーションのためのKVキャッシュ管理戦略を包括的に概観し、トークンレベル、モデルレベル、システムレベルの最適化に分類する。
論文 参考訳(メタデータ) (2024-12-27T04:17:57Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。
観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。
これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。