論文の概要: Time and Memory Trade-off of KV-Cache Compression in Tensor Transformer Decoding
- arxiv url: http://arxiv.org/abs/2503.11108v2
- Date: Thu, 27 Mar 2025 07:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:33.635135
- Title: Time and Memory Trade-off of KV-Cache Compression in Tensor Transformer Decoding
- Title(参考訳): テンソルトランスデコーディングにおけるKVキャッシュ圧縮の時間とメモリトレードオフ
- Authors: Yifang Chen, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Yu Tian,
- Abstract要約: テンソルバージョンにおけるキー値キャッシュは、推論中に重大なボトルネックを示す。
我々の研究は、テンソルアテンションバージョンによる空間複雑性障壁を一般化する。
全体として、我々の研究は、テンソルアテンションデコーディングにおけるKVキャッシュ圧縮の時間メモリトレードオフを理解するための理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 30.769940410718558
- License:
- Abstract: The key-value (KV) cache in the tensor version of transformers presents a significant bottleneck during inference. While previous work analyzes the fundamental space complexity barriers in standard attention mechanisms [Haris and Onak, 2025], our work generalizes the space complexity barriers result to tensor attention version. Our theoretical contributions rely on a reduction from communication complexity and deduce the memory lower bound for tensor-structured attention mechanisms when $d = \Omega(\log n)$. Furthermore, we introduce two types of tensor attention cache and present a trade-off between time and memory for two scenarios. Overall, our work provides a theoretical foundation for us to understand the time-memory tradeoff of KV-Cache compression in tensor attention decoding and offers more perspectives in developing more memory-efficient tensor attention Transformer architectures.
- Abstract(参考訳): テンソルバージョンの変圧器のキー値(KV)キャッシュは、推論中に重大なボトルネックを示す。
これまでの研究は、標準的な注意機構の基本的な空間複雑性障壁(Haris and Onak, 2025)を分析するが、我々の研究はテンソル注意バージョンによる空間複雑性障壁を一般化する。
我々の理論的な貢献は、通信複雑性の低減と、$d = \Omega(\log n)$のときのテンソル構造的アテンション機構のメモリローバウンドの導出に依存する。
さらに,2種類のテンソルアテンションキャッシュを導入し,2つのシナリオに対して時間とメモリ間のトレードオフを示す。
全体として、我々の研究は、テンソルアテンションデコーディングにおけるKVキャッシュ圧縮の時間メモリトレードオフを理解するための理論的基盤を提供し、よりメモリ効率のよいテンソルアテンショントランスフォーマーアーキテクチャを開発するための視点を提供する。
関連論文リスト
- Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Theoretical Constraints on the Expressive Power of $\mathsf{RoPE}$-based Tensor Attention Transformers [23.991344681741058]
本研究では, アテンションと$mathsfRoPE$-based Attentionの回路複雑性を分析し, 固定メンバシップ問題や$(A_F,r)*$クロージャ問題を解くことができないことを示す。
これらの結果は,経験的性能と注意の理論的制約と$mathsfRoPE$ベースの注意変換器とのギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2024-12-23T23:26:07Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。