Fugu-MT 論文翻訳(概要): X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression

論文の概要: X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression

arxiv url: http://arxiv.org/abs/2503.11132v1
Date: Fri, 14 Mar 2025 06:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.20902
Title: X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression
Title（参考訳）: X-EcoMLA: 効率的なKV圧縮のためのMLAへの事前学習注意の上昇
Authors: Guihong Li, Mehdi Rezagholizadeh, Mingyu Yang, Vikram Appia, Emad Barsoum,
Abstract要約: MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。モデル性能を損なうことなく、訓練精度を高め、MLAにおける極端なKVキャッシュ圧縮を可能にすることを実証した。
参考スコア（独自算出の注目度）: 23.023849840907594
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multi-head latent attention (MLA) is designed to optimize KV cache memory through low-rank key-value joint compression. Rather than caching keys and values separately, MLA stores their compressed latent representations, reducing memory overhead while maintaining the performance. While MLA improves memory efficiency without compromising language model accuracy, its major limitation lies in its integration during the pre-training phase, requiring models to be trained from scratch. This raises a key question: can we use MLA's benefits fully or partially in models that have already been pre-trained with different attention mechanisms? In this paper, we propose X-EcoMLA to deploy post training distillation to enable the upcycling of Transformer-based attention into an efficient hybrid (i.e., combination of regular attention and MLA layers) or full MLA variant through lightweight post-training adaptation, bypassing the need for extensive pre-training. We demonstrate that leveraging the dark knowledge of a well-trained model can enhance training accuracy and enable extreme KV cache compression in MLA without compromising model performance. Our results show that using an 8B teacher model allows us to compress the KV cache size of the Llama3.2-1B-Inst baseline by 6.4x while preserving 100% of its average score across multiple tasks on the LM Harness Evaluation benchmark. This is achieved with only 3.6B training tokens and about 70 GPU hours on AMD MI300 GPUs, compared to the 370K GPU hours required for pre-training the Llama3.2-1B model.
Abstract（参考訳）: MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。キーと値を別々にキャッシュするのではなく、MLAは圧縮された潜在表現を格納し、パフォーマンスを維持しながらメモリオーバーヘッドを低減する。 MLAは言語モデルの精度を損なうことなくメモリ効率を向上するが、その最大の制限は事前学習フェーズにおける統合であり、モデルをゼロからトレーニングする必要がある。 MLAのメリットを、すでに異なる注意機構で事前トレーニング済みのモデルで完全にあるいは部分的に使用することができるか? 本稿では,X-EcoMLAを用いて,トランスフォーマーをベースとした高効率なハイブリッド(すなわち,通常の注意層とMLA層の組み合わせ)や,軽量なポストトレーニング適応による完全なMLA変異体への事前学習の必要性を回避し,ポストトレーニング蒸留の展開を提案する。モデル性能を損なうことなく、訓練精度を高め、MLAにおける極端なKVキャッシュ圧縮を可能にすることを実証した。その結果,8B教師モデルを用いることで,LM Harness Evaluationベンチマークにおいて平均スコアの100%を保ちながら,Llama3.2-1B-InstベースラインのKVキャッシュサイズを6.4倍に圧縮できることがわかった。これは、Llama3.2-1Bモデルの事前トレーニングに必要な370KのGPU時間と比較して、3.6BのトレーニングトークンとAMD MI300 GPU上で約70のGPU時間で達成される。

関連論文リスト

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。 1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文参考訳（メタデータ） (2026-02-12T09:37:05Z)
Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space [12.98205656003145]
MHA(Multi-headed Attention's)の二次計算と線形に成長するKV-cacheは、長いコンテキストトランスフォーマーの訓練と提供に費用がかかる。本稿では,CCA(Compressed Convolutional Attention)を提案する。クエリ,キー,値をダウンプロジェクションし,共有潜在空間内でのアテンション操作全体を実行する新しいアテンション手法である。実験の結果、CCGQAはGQA(Grouped Query Attention)とMLA(Multi-Latent Attention)の両方を高密度モデルとMoEモデルで同等のKV-cache圧縮で一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-10-06T04:24:23Z)
HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
Zebra-Llama: Towards Extremely Efficient Hybrid Models [23.023849840907594]
大規模言語モデル(LLM)に代わる実用的でスケーラブルな代替案を提案する。 Zebra-LlamaはState Space Models (SSM)とMulti-head Latent Attention (MLA)レイヤを組み合わせて、事前訓練されたトランスフォーマーから知識を効率的に転送する。 Zebra-Llama Transformerの精度は7-11Bのトレーニングトークンと8Bの教師しか使用していない。
論文参考訳（メタデータ） (2025-05-22T20:39:57Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文参考訳（メタデータ） (2025-02-20T18:50:42Z)
TransMLA: Multi-Head Latent Attention Is All You Need [22.354283924006786]
大規模言語モデルにおける通信ボトルネックを解決するために,MLA(Multi-head Latent Attention)を導入する。我々は、同じKVキャッシュのオーバーヘッドを維持しながら、GQAを常にMLAで表現できることを示すが、逆は保たない。我々は,変換モデルにおける低レイテンシを維持するため,MLA固有の推論高速化技術を開発することを計画している。
論文参考訳（メタデータ） (2025-02-11T18:20:18Z)
Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。 1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文参考訳（メタデータ） (2024-12-21T18:04:01Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文参考訳（メタデータ） (2024-10-16T08:34:51Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T10:36:43Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-06T14:44:34Z)
Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文参考訳（メタデータ） (2020-10-08T10:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。