論文の概要: ZigzagAttention: Efficient Long-Context Inference with Exclusive Retrieval and Streaming Heads
- arxiv url: http://arxiv.org/abs/2508.12407v1
- Date: Sun, 17 Aug 2025 15:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.749251
- Title: ZigzagAttention: Efficient Long-Context Inference with Exclusive Retrieval and Streaming Heads
- Title(参考訳): ZigzagAttention: 排他的検索とストリームヘッドを用いた効率的なロングコンテキスト推論
- Authors: Zhuorui Liu, Chen Zhang, Dawei Song,
- Abstract要約: 本研究の目的は,大規模言語モデル(LLM)におけるKVキャッシュのメモリフットプリントの最適化である。
我々は、検索とストリーミングヘッドの識別プロセスに重要な改善を加え、単一のユニークな層に収集された検索またはストリーミングヘッドを排他的に強制する基準を設計する。
textscZigzagAttentionという名前のメソッドは、レイテンシの低減と同等のパフォーマンスのため、検討されたベースライン間で競合する。
- 参考スコア(独自算出の注目度): 9.121458241884444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs), handling long context has become one of the vital abilities in LLMs. Such long-context ability is accompanied by difficulties in deployment, especially due to the increased consumption of KV cache. There is certain work aiming to optimize the memory footprint of KV cache, inspired by the observation that attention heads can be categorized into retrieval heads that are of great significance and streaming heads that are of less significance. Typically, identifying the streaming heads and and waiving the KV cache in the streaming heads would largely reduce the overhead without hurting the performance that much. However, since employing both retrieval and streaming heads in one layer decomposes one large round of attention computation into two small ones, it may unexpectedly bring extra latency on accessing and indexing tensors. Based on this intuition, we impose an important improvement to the identification process of retrieval and streaming heads, in which we design a criterion that enforces exclusively retrieval or streaming heads gathered in one unique layer. In this way, we further eliminate the extra latency and only incur negligible performance degradation. Our method named \textsc{ZigzagAttention} is competitive among considered baselines owing to reduced latency and comparable performance.
- Abstract(参考訳): 大規模言語モデル (LLMs) の急速な発展に伴い、LLMにおいて長いコンテキストを扱うことが重要な能力の1つとなっている。
このような長期のコンテキスト能力には、特にKVキャッシュの消費の増加によるデプロイメントの困難が伴う。
KVキャッシュのメモリフットプリントを最適化することを目的とした研究は、注目ヘッドが重要でない検索ヘッドと、あまり重要でないストリーミングヘッドに分類できるという観察から着想を得たものである。
通常、ストリーミングヘッドの識別とストリーミングヘッドのKVキャッシュの放棄は、パフォーマンスをそれほど損なうことなくオーバーヘッドを大幅に削減する。
しかし、検索とストリーミングの両方のヘッドを1層に使用することで、大きな注意計算を2つの小さな層に分解するので、テンソルへのアクセスとインデックス付けに余分な遅延をもたらす可能性がある。
この直感に基づいて、検索およびストリーミングヘッドの識別プロセスに重要な改善を加え、単一のユニークな層に収集された検索またはストリーミングヘッドのみを強制する基準を設計する。
このようにして、余分なレイテンシを排除し、無視可能なパフォーマンス劣化しか発生しない。
提案手法は,レイテンシの低減と同等の性能のため,検討対象のベースライン間で競合する。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。
ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。
我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-04T13:26:16Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads [22.462489968597]
すべての注目ヘッドにキーとバリューの状態をキャッシュすると、かなりのメモリが消費される。
我々は,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,全KVキャッシュのみを検索ヘッドに適用するフレームワークであるDuoAttentionを紹介する。
GQAモデルでは,MHAでは2.55倍,GQAでは1.67倍の長文推論メモリが大幅に削減される。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - RazorAttention: Efficient KV Cache Compression Through Retrieval Heads [11.708388082001074]
トークン情報を全て保存するキーバリューキャッシュのための新しい圧縮手法を提案する。
RazorAttentionは、パフォーマンスに顕著な影響を与えずに、KVキャッシュサイズを70%以上削減する。
論文 参考訳(メタデータ) (2024-07-22T01:12:23Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。