論文の概要: MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
- arxiv url: http://arxiv.org/abs/2406.09297v3
- Date: Tue, 15 Oct 2024 08:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:57:46.123774
- Title: MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
- Title(参考訳): MLKV: メモリ効率の良いトランスフォーマーデコーディングのための多層キーバリューヘッド
- Authors: Zayd Muhammad Kawakibi Zuhri, Muhammad Farid Adilazuarda, Ayu Purwarianti, Alham Fikri Aji,
- Abstract要約: マルチレイヤキーバリュー(MLKV)共有は,トランスフォーマー層にまたがってKV共有を拡張し,メモリ使用量を削減する手法である。
アップトレーニングされたPythia-160M 変種を用いた様々な NLP ベンチマークと推論メトリクスの評価は、MLKV が性能損失を最小限に抑えてメモリ使用量を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 13.272502334507617
- License:
- Abstract: Auto-regressive inference of transformers benefit greatly from Key-Value (KV) caching, but can lead to major memory bottlenecks as model size, batch size, and sequence length grow at scale. We introduce Multi-Layer Key-Value (MLKV) sharing, a novel approach extending KV sharing across transformer layers to reduce memory usage beyond what was possible with Multi-Query Attention (MQA) and Grouped-Query Attention (GQA). Evaluations on various NLP benchmarks and inference metrics using uptrained Pythia-160M variants demonstrate that MLKV significantly reduces memory usage with minimal performance loss, reducing KV cache size down to a factor of 6x compared to MQA. These results highlight MLKV's potential for efficient deployment of transformer models at scale. We provide code at https://github.com/zaydzuhri/pythia-mlkv
- Abstract(参考訳): トランスフォーマーの自動回帰推論はキーバリュー(KV)キャッシングから大きく恩恵を受けるが、モデルサイズ、バッチサイズ、シーケンス長が大きくなるなど、大きなメモリボトルネックにつながる可能性がある。
我々は,Multi-Query Attention (MQA) と Grouped-Query Attention (GQA) で可能であった以上のメモリ使用量を削減するために,トランスフォーマー層をまたいだKV共有を拡張した新しいアプローチであるMulti-Layer Key-Value(MLKV)の共有を導入する。
アップトレーニングされたPythia-160Mを用いた様々なNLPベンチマークと推論メトリクスの評価から、MLKVはパフォーマンス損失を最小限に抑えてメモリ使用量を著しく削減し、KVキャッシュサイズをMQAに比べて6倍に削減することが示された。
これらの結果は、MLKVが大規模トランスフォーマーモデルを効率的に展開する可能性を強調している。
私たちはhttps://github.com/zaydzuhri/pythia-mlkvでコードを提供しています。
関連論文リスト
- MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - Reducing Transformer Key-Value Cache Size with Cross-Layer Attention [19.796549720022554]
隣接するレイヤ間でキーとバリューヘッドを共有することで、マルチクエリ注意をさらに一歩進めることが可能であることを示す。
また,未修正MQAとほぼ同じ精度を維持しながら,KVキャッシュのサイズを2倍に削減できることが判明した。
論文 参考訳(メタデータ) (2024-05-21T17:59:29Z) - Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。
本稿では,動的メモリ圧縮(DMC)を提案する。
Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文 参考訳(メタデータ) (2024-03-14T17:59:26Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
量子化はKVキャッシュアクティベーションを圧縮するための有望なアプローチである。
KVアクティベーションを定量化する新しい手法を取り入れたKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。