Fugu-MT 論文翻訳(概要): GTA: Grouped-head latenT Attention

論文の概要: GTA: Grouped-head latenT Attention

arxiv url: http://arxiv.org/abs/2506.17286v1
Date: Sun, 15 Jun 2025 07:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.309969
Title: GTA: Grouped-head latenT Attention
Title（参考訳）: GTA: Grouped-head latenT 注意
Authors: Luoyang Sun, Jiwen Jiang, Cheng Deng, Xinjian Wu, Haifeng Zhang, Lei Chen, Lionel Ni, Jun Wang,
Abstract要約: KVキャッシュと注意計算がテキスト長で急速にスケールするにつれて、重大なボトルネックが発生する。我々は,性能を維持しながらメモリ使用量と計算複雑性を低減させる新しいアテンション機構である textbfGrouped-Head LatentextbfT textbfAttention (GTA) を提案する。 GTA は FLOP を emph62.5% 対 Grouped-Query Attention で削減し、KV キャッシュを emph70% まで縮小する。
参考スコア（独自算出の注目度）: 44.19575886935378
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Attention mechanisms underpin the success of large language models (LLMs), yet their substantial computational and memory overhead poses challenges for optimizing efficiency and performance. A critical bottleneck arises as KV cache and attention computations scale rapidly with text length, challenging deployment on hardware with limited computational and memory resources. We observe that attention mechanisms exhibit substantial redundancy, since the KV cache can be significantly compressed and attention maps across heads display high similarity, revealing that much of the computation and storage is unnecessary. Leveraging these insights, we propose \textbf{G}rouped-Head Laten\textbf{T} \textbf{A}ttention (GTA), a novel attention mechanism that reduces memory usage and computational complexity while maintaining performance. GTA comprises two components: (1) a shared attention map mechanism that reuses attention scores across multiple heads, decreasing the key cache size; and (2) a nonlinear value decoder with learned projections that compresses the value cache into a latent space, further cutting memory needs. GTA cuts attention computation FLOPs by up to \emph{62.5\%} versus Grouped-Query Attention and shrink the KV cache by up to \emph{70\%}, all while avoiding the extra overhead of Multi-Head Latent Attention to improve LLM deployment efficiency. Consequently, GTA models achieve a \emph{2x} increase in end-to-end inference speed, with prefill benefiting from reduced computational cost and decoding benefiting from the smaller cache footprint.
Abstract（参考訳）: 注意機構は大規模言語モデル(LLM)の成功を支えているが、その計算とメモリのオーバーヘッドは効率と性能を最適化する上での課題となっている。重要なボトルネックは、KVキャッシュとアテンション計算がテキスト長で急速にスケールし、限られた計算資源とメモリリソースを持つハードウェアへのデプロイに挑戦するためである。注意機構は,KVキャッシュを著しく圧縮し,頭部を横断する注意マップに高い類似性を示すため,かなりの冗長性を示す。これらの知見を生かして,性能を維持しながらメモリ使用量と複雑性を低減させる新しいアテンション機構である \textbf{G}rouped-Head Laten\textbf{T} \textbf{A}ttention (GTA) を提案する。 GTAは、(1)複数のヘッドにまたがるアテンションスコアを再利用し、キーキャッシュサイズを小さくする共有アテンションマップ機構、(2)バリューキャッシュを潜在空間に圧縮する学習プロジェクションを備えた非線形値デコーダと、さらにメモリ要求を削減した2つのコンポーネントから構成される。 GTAは、FLOPを最大で \emph{62.5\%} 対 Grouped-Query Attention で削減し、KVキャッシュを最大で \emph{70\%} に縮小する。その結果、GTAモデルは、計算コストの削減とキャッシュフットプリントの縮小によるデコードによるプリフィルにより、エンドツーエンドの推論速度の \emph{2x} の増加を達成する。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
CacheFormer: High Attention-Based Segment Caching [0.0]
パープレキシティの低いトランスフォーマーベース言語モデルにおいて,長いコンテキストを効率的に処理する方法を示す。我々の拡張により、既存のSOTAアーキテクチャよりも平均パープレキシティが8.5%向上し、類似のモデルサイズよりも優れています。
論文参考訳（メタデータ） (2025-04-18T06:34:57Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文参考訳（メタデータ） (2024-08-10T22:47:12Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文参考訳（メタデータ） (2024-03-30T04:34:54Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。