論文の概要: Multi-Head Low-Rank Attention
- arxiv url: http://arxiv.org/abs/2603.02188v1
- Date: Mon, 02 Mar 2026 18:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.039255
- Title: Multi-Head Low-Rank Attention
- Title(参考訳): マルチヘッド低ランクアテンション
- Authors: Songtao Liu, Hongwu Peng, Zhiwei Zhang, Zhengyu Chen, Yue Guo,
- Abstract要約: MLA(Multi-Head Latent Attention)は、KVキャッシュの総サイズを大幅に削減する。
単一の遅延ヘッドはパーティショニングできないため、各デバイスはトークン毎に完全なKVキャッシュを冗長にロードせざるを得ない。
効率的な4方向TPデコーディングのための分割可能な潜在状態を実現するマルチヘッド低ランクアテンション(MLRA)を提案する。
- 参考スコア(独自算出の注目度): 22.28455391125486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference in large language models is bottlenecked by Key--Value (KV) cache loading during the decoding stage, where the sequential nature of generation requires repeatedly transferring the KV cache from off-chip High-Bandwidth Memory (HBM) to on-chip Static Random-Access Memory (SRAM) at each step. While Multi-Head Latent Attention (MLA) significantly reduces the total KV cache size, it suffers from a sharding bottleneck during distributed decoding via Tensor Parallelism (TP). Since its single latent head cannot be partitioned, each device is forced to redundantly load the complete KV cache for every token, consuming excessive memory traffic and diminishing TP benefits like weight sharding. In this work, we propose Multi-Head Low-Rank Attention (MLRA), which enables partitionable latent states for efficient 4-way TP decoding. Extensive experiments show that MLRA achieves state-of-the-art perplexity and downstream task performance, while also delivering a 2.8$\times$ decoding speedup over MLA. Code is available at https://github.com/SongtaoLiu0823/MLRA. Pretrained weights, along with the training and evaluation data, are available at https://huggingface.co/Soughing/MLRA.
- Abstract(参考訳): 生成のシーケンシャルな性質は、オフチップのHigh-Bandwidth Memory (HBM) からオンチップの Static Random-Access Memory (SRAM) へのKVキャッシュの繰り返し転送を必要とする。
MLA(Multi-Head Latent Attention)は、KVキャッシュの総サイズを大幅に削減するが、Tensor Parallelism(TP)による分散デコーディングにおいて、シャーディングボトルネックに悩まされる。
単一の遅延ヘッドはパーティショニングできないため、各デバイスはトークン毎に完全なKVキャッシュを冗長にロードし、過剰なメモリトラフィックを消費し、重み付けなどのTPメリットを低下させる。
本研究では,効率的な4方向TPデコーディングを実現するために,分割可能な潜在状態を実現するマルチヘッド低ランクアテンション(MLRA)を提案する。
大規模な実験により、MLRAは最先端のパープレキシティとダウンストリームタスクのパフォーマンスを達成し、MLA上で2.8$\times$デコードスピードアップを提供する。
コードはhttps://github.com/SongtaoLiu0823/MLRAで公開されている。
トレーニングと評価データとともに、事前トレーニングされたウェイトはhttps://huggingface.co/Soughing/MLRA.comで入手できる。
関連論文リスト
- Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel [19.009329924868002]
LLMは、グローバルメモリから大量のKVキャッシュをロードするため、メモリバウンドな操作であるデコードアテンションによって、ますます支配的になっている。
本稿では,LCM復号化のためのプレフィックス対応アテンションカーネル実装であるPATを紹介し,パックフォワード・マージのパラダイムによる実行を整理する。
PATは注目のレイテンシを平均67.4%削減し、TPOTは13.6-83.4%削減した。
論文 参考訳(メタデータ) (2025-11-27T11:10:30Z) - TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill and Decode Inference [48.40143137402824]
MLA(Multi-Head Latent Attention)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを減少させる。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードしなければならない。
本稿では,潜在表現と各頭部の入力次元をデバイス間で分割し,シャード毎に独立して注目を行い,結果を全再現と組み合わせる方式であるTPLAを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:25:40Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - Hardware-Efficient Attention for Fast Decoding [13.958883001629644]
Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。
最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文 参考訳(メタデータ) (2025-05-27T17:54:07Z) - Multi-head Temporal Latent Attention [27.475917680869657]
キーバリューキャッシュを低ランクの潜在空間に圧縮するために、最近マルチヘッド潜時注意が開発された。
本稿では,時間次元に沿ったKVキャッシュサイズをより小さくするマルチヘッド時間遅延注意(MTLA)を提案する。
音声翻訳、音声認識、音声理解、テキスト要約などのタスクにわたる実験は、MTLAが競争性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-05-19T02:09:41Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。