Fugu-MT 論文翻訳(概要): MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

論文の概要: MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

arxiv url: http://arxiv.org/abs/2406.09297v3
Date: Tue, 15 Oct 2024 08:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.598324
Title: MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
Title（参考訳）: MLKV: メモリ効率の良いトランスフォーマーデコーディングのための多層キーバリューヘッド
Authors: Zayd Muhammad Kawakibi Zuhri, Muhammad Farid Adilazuarda, Ayu Purwarianti, Alham Fikri Aji,
Abstract要約: マルチレイヤキーバリュー(MLKV)共有は,トランスフォーマー層にまたがってKV共有を拡張し,メモリ使用量を削減する手法である。アップトレーニングされたPythia-160M 変種を用いた様々な NLP ベンチマークと推論メトリクスの評価は、MLKV が性能損失を最小限に抑えてメモリ使用量を大幅に削減することを示した。
参考スコア（独自算出の注目度）: 13.272502334507617
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Auto-regressive inference of transformers benefit greatly from Key-Value (KV) caching, but can lead to major memory bottlenecks as model size, batch size, and sequence length grow at scale. We introduce Multi-Layer Key-Value (MLKV) sharing, a novel approach extending KV sharing across transformer layers to reduce memory usage beyond what was possible with Multi-Query Attention (MQA) and Grouped-Query Attention (GQA). Evaluations on various NLP benchmarks and inference metrics using uptrained Pythia-160M variants demonstrate that MLKV significantly reduces memory usage with minimal performance loss, reducing KV cache size down to a factor of 6x compared to MQA. These results highlight MLKV's potential for efficient deployment of transformer models at scale. We provide code at https://github.com/zaydzuhri/pythia-mlkv
Abstract（参考訳）: トランスフォーマーの自動回帰推論はキーバリュー(KV)キャッシングから大きく恩恵を受けるが、モデルサイズ、バッチサイズ、シーケンス長が大きくなるなど、大きなメモリボトルネックにつながる可能性がある。我々は,Multi-Query Attention (MQA) と Grouped-Query Attention (GQA) で可能であった以上のメモリ使用量を削減するために,トランスフォーマー層をまたいだKV共有を拡張した新しいアプローチであるMulti-Layer Key-Value(MLKV)の共有を導入する。アップトレーニングされたPythia-160Mを用いた様々なNLPベンチマークと推論メトリクスの評価から、MLKVはパフォーマンス損失を最小限に抑えてメモリ使用量を著しく削減し、KVキャッシュサイズをMQAに比べて6倍に削減することが示された。これらの結果は、MLKVが大規模トランスフォーマーモデルを効率的に展開する可能性を強調している。私たちはhttps://github.com/zaydzuhri/pythia-mlkvでコードを提供しています。

関連論文リスト

Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。 MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。 MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文参考訳（メタデータ） (2024-12-26T15:45:45Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention [19.796549720022554]
隣接するレイヤ間でキーとバリューヘッドを共有することで、マルチクエリ注意をさらに一歩進めることが可能であることを示す。また,未修正MQAとほぼ同じ精度を維持しながら,KVキャッシュのサイズを2倍に削減できることが判明した。
論文参考訳（メタデータ） (2024-05-21T17:59:29Z)
Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文参考訳（メタデータ） (2024-05-17T08:59:46Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。本稿では,動的メモリ圧縮(DMC)を提案する。 Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文参考訳（メタデータ） (2024-03-14T17:59:26Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。