論文の概要: Latent-Condensed Transformer for Efficient Long Context Modeling
- arxiv url: http://arxiv.org/abs/2604.12452v2
- Date: Thu, 16 Apr 2026 06:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.181087
- Title: Latent-Condensed Transformer for Efficient Long Context Modeling
- Title(参考訳): リアルタイム長コンテキストモデリングのための潜在凝縮形変圧器
- Authors: Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan,
- Abstract要約: 大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
- 参考スコア(独自算出の注目度): 60.72493959155964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) face significant challenges in processing long contexts due to the linear growth of the key-value (KV) cache and quadratic complexity of self-attention. Existing approaches address these bottlenecks separately: Multi-head Latent Attention (MLA) reduces the KV cache by projecting tokens into a low-dimensional latent space, while sparse attention reduces computation. However, sparse methods cannot operate natively on MLA's compressed latent structure, missing opportunities for joint optimization. In this paper, we propose Latent-Condensed Attention (LCA), which directly condenses context within MLA's latent space, where the representation is disentangled into semantic latent vectors and positional keys. LCA separately aggregates semantic vectors via query-aware pooling and preserves positional keys via anchor selection. This approach jointly reduces both computational cost and KV cache without adding parameters. Beyond MLA, LCA's design is architecture-agnostic and readily extends to other attention mechanisms such as GQA. Theoretically, we prove a length-independent error bound. Experiments show LCA achieves up to 2.5$\times$ prefilling speedup and 90% KV cache reduction at 128K context while maintaining competitive performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キー値(KV)キャッシュの線形成長と、自己注意の二次的複雑さにより、長いコンテキストを処理する上で重大な課題に直面している。
MLA(Multi-head Latent Attention)は、トークンを低次元の潜在空間に投影することで、KVキャッシュを削減します。
しかし、スパース法はMLAの圧縮潜在構造ではネイティブに動作できないため、共同最適化の機会が欠如している。
本稿では,MLAの潜在空間内のコンテキストを直接凝縮し,その表現を意味的潜在ベクトルと位置キーに分解するLatent-Condensed Attention (LCA)を提案する。
LCAはクエリ認識プーリングを通じてセマンティックベクターを別々に集約し、アンカーセレクションを介して位置キーを保存する。
このアプローチはパラメータを追加することなく計算コストとKVキャッシュの両方を共同で削減する。
MLA以外にも、LCAの設計はアーキテクチャに依存しず、GQAのような他の注意機構にも容易に拡張できる。
理論的には、長さ非依存の誤差境界が証明される。
実験によると、LCAは最大2.5$\times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現し、競争性能を維持している。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization [23.781285860723248]
キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。
本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:35:28Z) - Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space [12.98205656003145]
MHA(Multi-headed Attention's)の二次計算と線形に成長するKV-cacheは、長いコンテキストトランスフォーマーの訓練と提供に費用がかかる。
本稿では,CCA(Compressed Convolutional Attention)を提案する。クエリ,キー,値をダウンプロジェクションし,共有潜在空間内でのアテンション操作全体を実行する新しいアテンション手法である。
実験の結果、CCGQAはGQA(Grouped Query Attention)とMLA(Multi-Latent Attention)の両方を高密度モデルとMoEモデルで同等のKV-cache圧縮で一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-10-06T04:24:23Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。