論文の概要: Multi-head Temporal Latent Attention
- arxiv url: http://arxiv.org/abs/2505.13544v2
- Date: Wed, 21 May 2025 01:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.342086
- Title: Multi-head Temporal Latent Attention
- Title(参考訳): Multi-head Temporal Latent Attention
- Authors: Keqi Deng, Philip C. Woodland,
- Abstract要約: キーバリューキャッシュを低ランクの潜在空間に圧縮するために、最近マルチヘッド潜時注意が開発された。
本稿では,時間次元に沿ったKVキャッシュサイズをより小さくするマルチヘッド時間遅延注意(MTLA)を提案する。
音声翻訳、音声認識、音声理解、テキスト要約などのタスクにわたる実験は、MTLAが競争性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 14.410024368174872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer self-attention offers strong parallelism, the Key-Value (KV) cache grows linearly with sequence length and becomes a bottleneck for inference efficiency. Multi-head latent attention was recently developed to compress the KV cache into a low-rank latent space. This paper proposes Multi-head Temporal Latent Attention (MTLA), which further reduces the KV cache size along the temporal dimension, greatly lowering the memory footprint of self-attention inference. MTLA employs a hyper-network to dynamically merge temporally adjacent KV cache vectors. To address the mismatch between the compressed KV cache and processed sequence lengths, a stride-aware causal mask is proposed to ensure efficient parallel training and consistency with inference behaviour. Experiments across tasks, including speech translation, speech recognition, speech understanding and text summarisation, demonstrate that MTLA achieves competitive performance compared to standard Multi-Head Attention (MHA), while greatly improving inference speed and GPU memory usage. For example, on a English-German speech translation task, MTLA achieves a 5.3x speedup and a reduction in GPU memory usage by a factor of 8.3 compared to MHA, while maintaining translation quality.
- Abstract(参考訳): Transformerの自己アテンションは強力な並列性を提供するが、キーバリュー(KV)キャッシュはシーケンス長とともに線形に増加し、推論効率のボトルネックとなる。
KVキャッシュを低ランクの遅延空間に圧縮するために、最近マルチヘッド潜時注意が開発された。
本稿では, 時間次元に沿ってKVキャッシュサイズを小さくし, 自己アテンション推論のメモリフットプリントを大幅に低減する, MTLA(Multi-head Temporal Latent Attention)を提案する。
MTLAは、時間的に隣接するKVキャッシュベクトルを動的にマージするためにハイパーネットワークを使用する。
圧縮KVキャッシュと処理シーケンス長のミスマッチに対処するため、ストライド対応因果マスクを提案し、効率的な並列トレーニングと推論動作との整合性を確保する。
音声翻訳、音声認識、音声理解、テキスト要約などのタスクにわたる実験は、MTLAが標準のマルチヘッド注意(MHA)と比較して競争性能を達成し、推論速度とGPUメモリ使用量を大幅に改善することを示した。
例えば、英語とドイツ語の音声翻訳タスクでは、翻訳品質を維持しながら、MTLAは5.3倍の高速化とGPUメモリ使用量の8.3倍の削減を実現している。
関連論文リスト
- SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [9.617322424513317]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。
本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-01T17:08:57Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.895020720304656]
MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。
MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文 参考訳(メタデータ) (2025-02-24T19:34:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference [5.1206021159434805]
MPCacheは、長いシーケンスの履歴トークンが下流のデコードに異なる影響を与える可能性があるという観察に基づいて構築されている。
MPCacheは、異なるLLM生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-01-12T13:18:04Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。