論文の概要: Whisper-MLA: Reducing GPU Memory Consumption of ASR Models based on MHA2MLA Conversion
- arxiv url: http://arxiv.org/abs/2603.00563v1
- Date: Sat, 28 Feb 2026 09:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.261823
- Title: Whisper-MLA: Reducing GPU Memory Consumption of ASR Models based on MHA2MLA Conversion
- Title(参考訳): Whisper-MLA:MHA2MLA変換に基づくASRモデルのGPUメモリ消費削減
- Authors: Sen Zhang, Jianguo Wei, Wenhuan Lu, Xianghu Yue, Wei Li, Qiang Li, Pengcheng Zhao, Ming Cai, Luo Si,
- Abstract要約: 本稿では,WhisperモデルにMLA(Multi-Head Latent Attention)を組み込んだ新しいアーキテクチャであるWhisper-MLAを紹介する。
我々は,Whisper-MLAにより,競合精度を維持しつつ,KVキャッシュサイズを最大87.5%削減できることを示す。
- 参考スコア(独自算出の注目度): 47.317377282106015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer-based Whisper model has achieved state-of-the-art performance in Automatic Speech Recognition (ASR). However, its Multi-Head Attention (MHA) mechanism results in significant GPU memory consumption due to the linearly growing Key-Value (KV) cache usage, which is problematic for many applications especially with long-form audio. To address this, we introduce Whisper-MLA, a novel architecture that incorporates Multi-Head Latent Attention (MLA) into the Whisper model. Specifically, we adapt MLA for Whisper's absolute positional embeddings and systematically investigate its application across encoder self-attention, decoder self-attention, and cross-attention modules. Empirical results indicate that applying MLA exclusively to decoder self-attention yields the desired balance between performance and memory efficiency. Our proposed approach allows conversion of a pretrained Whisper model to Whisper-MLA with minimal fine-tuning. Extensive experiments on the LibriSpeech benchmark validate the effectiveness of this conversion, demonstrating that Whisper-MLA reduces the KV cache size by up to 87.5% while maintaining competitive accuracy.
- Abstract(参考訳): The Transformer-based Whisper model has achieved-of-the-art performance in Automatic Speech Recognition (ASR)。
しかし、そのMHA(Multi-Head Attention)メカニズムは、線形に増大するキーバリュー(KV)キャッシュの使用により、GPUのメモリ消費が大幅に増加する。
そこで我々は,WhisperモデルにMLA(Multi-Head Latent Attention)を組み込んだ新しいアーキテクチャであるWhisper-MLAを紹介する。
具体的には,Whisper の絶対位置埋め込みに MLA を適用し,エンコーダ自己アテンション,デコーダ自己アテンション,クロスアテンションモジュールにまたがる応用を体系的に検討する。
実験結果から, MLAをデコーダの自己アテンションにのみ適用すると, 性能とメモリ効率のバランスが得られた。
提案手法により,学習前のWhisperモデルを最小限の微調整でWhisper-MLAに変換することができる。
LibriSpeechベンチマークの大規模な実験は、この変換の有効性を検証し、Whisper-MLAが競合精度を維持しながら、KVキャッシュサイズを最大87.5%削減することを示した。
関連論文リスト
- MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition [39.90876258237132]
Matryoshka Expression Learning (MRL)は、単一のモデルを複数のトークンの粒度にわたって動作させることによって、この問題に対処する。
MoME は MRL をベースとした音声認識用大規模言語モデルにスパース・ミックス・オブ・エクササイズ (MoE) を統合する新しいフレームワークである。
MoME は AVSR 、 ASR 、 VSR のタスクにまたがって最先端のパフォーマンスを実現するが、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2025-10-05T10:34:34Z) - Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models [60.857389526958485]
MATAはLALMを動的にプッシュして、自己保持機構内で textbfMore textbfAttention textbfTo textbfAudioトークンを支払います。
MMAUとMMARベンチマークの実験により、MATAの有効性が確認され、一貫した性能が向上した。
論文 参考訳(メタデータ) (2025-09-23T09:02:15Z) - EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs [8.093922145280326]
キー値(KV)キャッシュサイズは、大規模言語モデル(LLM)における効率的な推論を実現するための重要なステップである。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することでこれを緩和している。
MLAの新たな拡張である textbfEmbedding-Gated Multi-head Latent Attention (EG-MLA) を提案する。
論文 参考訳(メタデータ) (2025-09-20T13:27:13Z) - Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing [33.36615989947073]
拡散型大言語モデルLLaDAを用いた音声認識(ASR)に関する実験的検討を行った。
ランダムマスキング,低信頼マスキング,半自己回帰戦略について検討し,Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
論文 参考訳(メタデータ) (2025-09-20T10:48:06Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [30.770661469301544]
MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文 参考訳(メタデータ) (2025-03-14T06:49:37Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - TransMLA: Multi-Head Latent Attention Is All You Need [34.38934956358534]
TransMLAはGQAベースのモデルをMLAベースのモデルにシームレスに変換するフレームワークである。
LLaMA-2-7BでKVキャッシュの93%を圧縮することにより、TransMLAは8Kコンテキスト長で10.6倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-11T18:20:18Z) - Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文 参考訳(メタデータ) (2024-12-26T15:45:45Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。