論文の概要: GTA: Grouped-head latenT Attention
- arxiv url: http://arxiv.org/abs/2506.17286v1
- Date: Sun, 15 Jun 2025 07:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.309969
- Title: GTA: Grouped-head latenT Attention
- Title(参考訳): GTA: Grouped-head latenT 注意
- Authors: Luoyang Sun, Jiwen Jiang, Cheng Deng, Xinjian Wu, Haifeng Zhang, Lei Chen, Lionel Ni, Jun Wang,
- Abstract要約: KVキャッシュと注意計算がテキスト長で急速にスケールするにつれて、重大なボトルネックが発生する。
我々は,性能を維持しながらメモリ使用量と計算複雑性を低減させる新しいアテンション機構である textbfGrouped-Head LatentextbfT textbfAttention (GTA) を提案する。
GTA は FLOP を emph62.5% 対 Grouped-Query Attention で削減し、KV キャッシュを emph70% まで縮小する。
- 参考スコア(独自算出の注目度): 44.19575886935378
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Attention mechanisms underpin the success of large language models (LLMs), yet their substantial computational and memory overhead poses challenges for optimizing efficiency and performance. A critical bottleneck arises as KV cache and attention computations scale rapidly with text length, challenging deployment on hardware with limited computational and memory resources. We observe that attention mechanisms exhibit substantial redundancy, since the KV cache can be significantly compressed and attention maps across heads display high similarity, revealing that much of the computation and storage is unnecessary. Leveraging these insights, we propose \textbf{G}rouped-Head Laten\textbf{T} \textbf{A}ttention (GTA), a novel attention mechanism that reduces memory usage and computational complexity while maintaining performance. GTA comprises two components: (1) a shared attention map mechanism that reuses attention scores across multiple heads, decreasing the key cache size; and (2) a nonlinear value decoder with learned projections that compresses the value cache into a latent space, further cutting memory needs. GTA cuts attention computation FLOPs by up to \emph{62.5\%} versus Grouped-Query Attention and shrink the KV cache by up to \emph{70\%}, all while avoiding the extra overhead of Multi-Head Latent Attention to improve LLM deployment efficiency. Consequently, GTA models achieve a \emph{2x} increase in end-to-end inference speed, with prefill benefiting from reduced computational cost and decoding benefiting from the smaller cache footprint.
- Abstract(参考訳): 注意機構は大規模言語モデル(LLM)の成功を支えているが、その計算とメモリのオーバーヘッドは効率と性能を最適化する上での課題となっている。
重要なボトルネックは、KVキャッシュとアテンション計算がテキスト長で急速にスケールし、限られた計算資源とメモリリソースを持つハードウェアへのデプロイに挑戦するためである。
注意機構は,KVキャッシュを著しく圧縮し,頭部を横断する注意マップに高い類似性を示すため,かなりの冗長性を示す。
これらの知見を生かして,性能を維持しながらメモリ使用量と複雑性を低減させる新しいアテンション機構である \textbf{G}rouped-Head Laten\textbf{T} \textbf{A}ttention (GTA) を提案する。
GTAは、(1)複数のヘッドにまたがるアテンションスコアを再利用し、キーキャッシュサイズを小さくする共有アテンションマップ機構、(2)バリューキャッシュを潜在空間に圧縮する学習プロジェクションを備えた非線形値デコーダと、さらにメモリ要求を削減した2つのコンポーネントから構成される。
GTAは、FLOPを最大で \emph{62.5\%} 対 Grouped-Query Attention で削減し、KVキャッシュを最大で \emph{70\%} に縮小する。
その結果、GTAモデルは、計算コストの削減とキャッシュフットプリントの縮小によるデコードによるプリフィルにより、エンドツーエンドの推論速度の \emph{2x} の増加を達成する。
関連論文リスト
- Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文 参考訳(メタデータ) (2024-08-10T22:47:12Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。
木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。
我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文 参考訳(メタデータ) (2024-03-30T04:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。