論文の概要: X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression
- arxiv url: http://arxiv.org/abs/2503.11132v1
- Date: Fri, 14 Mar 2025 06:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:58.922368
- Title: X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression
- Title(参考訳): X-EcoMLA: 効率的なKV圧縮のためのMLAへの事前学習注意の上昇
- Authors: Guihong Li, Mehdi Rezagholizadeh, Mingyu Yang, Vikram Appia, Emad Barsoum,
- Abstract要約: MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
モデル性能を損なうことなく、訓練精度を高め、MLAにおける極端なKVキャッシュ圧縮を可能にすることを実証した。
- 参考スコア(独自算出の注目度): 23.023849840907594
- License:
- Abstract: Multi-head latent attention (MLA) is designed to optimize KV cache memory through low-rank key-value joint compression. Rather than caching keys and values separately, MLA stores their compressed latent representations, reducing memory overhead while maintaining the performance. While MLA improves memory efficiency without compromising language model accuracy, its major limitation lies in its integration during the pre-training phase, requiring models to be trained from scratch. This raises a key question: can we use MLA's benefits fully or partially in models that have already been pre-trained with different attention mechanisms? In this paper, we propose X-EcoMLA to deploy post training distillation to enable the upcycling of Transformer-based attention into an efficient hybrid (i.e., combination of regular attention and MLA layers) or full MLA variant through lightweight post-training adaptation, bypassing the need for extensive pre-training. We demonstrate that leveraging the dark knowledge of a well-trained model can enhance training accuracy and enable extreme KV cache compression in MLA without compromising model performance. Our results show that using an 8B teacher model allows us to compress the KV cache size of the Llama3.2-1B-Inst baseline by 6.4x while preserving 100% of its average score across multiple tasks on the LM Harness Evaluation benchmark. This is achieved with only 3.6B training tokens and about 70 GPU hours on AMD MI300 GPUs, compared to the 370K GPU hours required for pre-training the Llama3.2-1B model.
- Abstract(参考訳): MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
キーと値を別々にキャッシュするのではなく、MLAは圧縮された潜在表現を格納し、パフォーマンスを維持しながらメモリオーバーヘッドを低減する。
MLAは言語モデルの精度を損なうことなくメモリ効率を向上するが、その最大の制限は事前学習フェーズにおける統合であり、モデルをゼロからトレーニングする必要がある。
MLAのメリットを、すでに異なる注意機構で事前トレーニング済みのモデルで完全にあるいは部分的に使用することができるか?
本稿では,X-EcoMLAを用いて,トランスフォーマーをベースとした高効率なハイブリッド(すなわち,通常の注意層とMLA層の組み合わせ)や,軽量なポストトレーニング適応による完全なMLA変異体への事前学習の必要性を回避し,ポストトレーニング蒸留の展開を提案する。
モデル性能を損なうことなく、訓練精度を高め、MLAにおける極端なKVキャッシュ圧縮を可能にすることを実証した。
その結果,8B教師モデルを用いることで,LM Harness Evaluationベンチマークにおいて平均スコアの100%を保ちながら,Llama3.2-1B-InstベースラインのKVキャッシュサイズを6.4倍に圧縮できることがわかった。
これは、Llama3.2-1Bモデルの事前トレーニングに必要な370KのGPU時間と比較して、3.6BのトレーニングトークンとAMD MI300 GPU上で約70のGPU時間で達成される。
関連論文リスト
- Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。
モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。
6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - TransMLA: Multi-Head Latent Attention Is All You Need [22.354283924006786]
大規模言語モデルにおける通信ボトルネックを解決するために,MLA(Multi-head Latent Attention)を導入する。
我々は、同じKVキャッシュのオーバーヘッドを維持しながら、GQAを常にMLAで表現できることを示すが、逆は保たない。
我々は,変換モデルにおける低レイテンシを維持するため,MLA固有の推論高速化技術を開発することを計画している。
論文 参考訳(メタデータ) (2025-02-11T18:20:18Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。
本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。
提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文 参考訳(メタデータ) (2024-10-16T08:34:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。