論文の概要: TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill \& Decode Inference
- arxiv url: http://arxiv.org/abs/2508.15881v1
- Date: Thu, 21 Aug 2025 15:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.143734
- Title: TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill \& Decode Inference
- Title(参考訳): TPLA: 効率的な非凝集型プリフィル \&デコード推論のためのテンソル並列遅延注意
- Authors: Xiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang,
- Abstract要約: MLA(Multi-Head Latent Attention)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを減少させる。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードしなければならない。
本稿では,潜在表現と各頭部の入力次元をデバイス間で分割し,シャード毎に独立して注目を行い,結果を全再現と組み合わせる方式であるTPLAを提案する。
- 参考スコア(独自算出の注目度): 48.40143137402824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Head Latent Attention (MLA), introduced in DeepSeek-V2, compresses key-value states into a low-rank latent vector, caching only this vector to reduce memory. In tensor parallelism (TP), however, attention heads are computed across multiple devices, and each device must load the full cache, eroding the advantage of MLA over Grouped Query Attention (GQA). We propose Tensor-Parallel Latent Attention (TPLA): a scheme that partitions both the latent representation and each head's input dimension across devices, performs attention independently per shard, and then combines results with an all-reduce. TPLA preserves the benefits of a compressed KV cache while unlocking TP efficiency. Unlike Grouped Latent Attention (GLA), every head in TPLA still leverages the full latent representation, maintaining stronger representational capacity. TPLA is drop-in compatible with models pre-trained using MLA: it supports MLA-style prefilling and enables efficient tensor-parallel decoding without retraining. Applying simple orthogonal transforms -- e.g., the Hadamard transform or PCA -- before TP slicing further mitigates cross-shard interference, yielding minimal accuracy degradation. By reducing the per-device KV cache for DeepSeek-V3 and Kimi-K2, we achieve 1.79x and 1.93x speedups, respectively, at a 32K-token context length while maintaining performance on commonsense and LongBench benchmarks. TPLA can be implemented with FlashAttention-3, enabling practical end-to-end acceleration.
- Abstract(参考訳): DeepSeek-V2で導入されたMulti-Head Latent Attention (MLA)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを削減する。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスは全キャッシュをロードし、グループクエリ注意(GQA)よりもMLAの利点を損なう。
本稿では,テンソル・パラレル遅延注意(TPLA: Tensor-Parallel Latent Attention)を提案する。
TPLAは、TP効率をアンロックしながら圧縮KVキャッシュの利点を保っている。
Grouped Latent Attention (GLA)とは異なり、TPLAのすべてのヘッドは依然として完全な潜在表現を利用しており、より強力な表現能力を維持している。
TPLAは、MLAスタイルのプリフィルをサポートし、再トレーニングせずに効率的なテンソル並列デコードを可能にする。
TPスライシング前に単純な直交変換(例えば、アダマール変換またはPCA)を適用することで、クロスシャード干渉をさらに軽減し、最小の精度の劣化をもたらす。
DeepSeek-V3 と Kimi-K2 のデバイス毎のKVキャッシュを削減し、コモンセンスとロングベンチベンチマークの性能を維持しながら、32K のコンテキスト長でそれぞれ 1.79x と 1.93x の高速化を実現した。
TPLAはFlashAttention-3で実装でき、実用的なエンドツーエンドのアクセラレーションを可能にする。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - Multi-head Temporal Latent Attention [14.410024368174872]
キーバリューキャッシュを低ランクの潜在空間に圧縮するために、最近マルチヘッド潜時注意が開発された。
本稿では,時間次元に沿ったKVキャッシュサイズをより小さくするマルチヘッド時間遅延注意(MTLA)を提案する。
音声翻訳、音声認識、音声理解、テキスト要約などのタスクにわたる実験は、MTLAが競争性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-05-19T02:09:41Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。
圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。