論文の概要: HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference
- arxiv url: http://arxiv.org/abs/2602.00777v1
- Date: Sat, 31 Jan 2026 15:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.395132
- Title: HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference
- Title(参考訳): HyLRA: 効率的な長期推論のためのハイブリッドレイヤ再利用アテンション
- Authors: Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang, Renhai Chen, Gong Zhang,
- Abstract要約: 大規模言語モデルにおける長文推論は、注意の2次計算の複雑さによってボトルネックとなる。
bf HyLRAは階層ワイド・スパシティ・プロファイリングによって駆動される新しいフレームワークである。
その結果,HyLRAは推論のスループットを6%から46%向上し,同等の性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 11.718567830546538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference in Large Language Models (LLMs) is bottlenecked by the quadratic computation complexity of attention and the substantial memory footprint of Key-Value (KV) caches. While existing sparse attention mechanisms attempt to mitigate this by exploiting inherent sparsity, they often rely on rigid patterns or aggressive pruning, failing to achieve an optimal balance between efficiency and accuracy. In this paper, we introduce {\bf HyLRA} ({\bf Hy}brid {\bf L}ayer {\bf R}euse {\bf A}ttention), a novel framework driven by layer-wise sparsity profiling. Our empirical analysis uncovers a dual characteristic in attention mechanics: \textit{intra-layer sensitivity}, where specific layers necessitate full attention to prevent feature distortion, and \textit{inter-layer similarity}, where consecutive layers share substantial critical tokens. Based on these observations, HyLRA employs an offline dynamic programming approach to derive an optimal layer-wise policy. This hybrid strategy retains full attention for sensitive layers to ensure robustness, while enabling tolerant layers to bypass quadratic calculations by directly reusing top-$k$ indices from preceding layers. This approach allows LLMs to restrict computation to the most critical tokens, effectively overcoming the quadratic bottleneck of dense attention. Extensive evaluations demonstrate that HyLRA improves inference throughput by 6\%--46\% while maintaining comparable performance (with $<1\%$ accuracy degradation), consistently outperforming state-of-the-art sparse attention methods. HyLRA is open source at \href{https://anonymous.4open.science/r/unified-cache-management-CF80/}{\texttt{/r/unified-cache-management-CF80/}}
- Abstract(参考訳): LLM(Long-context Inference in Large Language Models)は、注意の2次計算の複雑さとキーバリュー(KV)キャッシュのメモリフットプリントによってボトルネックとなる。
既存のスパースアテンション機構は、固有の空間を利用してこれを緩和しようとするが、しばしば堅固なパターンやアグレッシブプルーニングに頼り、効率と精度の最適なバランスを達成できなかった。
本稿では,レイヤワイド・スパシティ・プロファイリングによって駆動される新しいフレームワークである {\bf HyLRA({\bf Hy}brid {\bf L}ayer {\bf R}euse {\bf A}ttention)を紹介する。
我々の経験的分析により、注意力学の二重特性が明らかとなった: 特定の層が特徴歪みを防ぐのに十分な注意を必要とする \textit{intra-layer sensitivity} と、連続層が重要な重要なトークンを共有する \textit{inter-layer similarity} である。
これらの観測に基づいて、HyLRAは、最適なレイヤワイドポリシーを導出するために、オフラインの動的プログラミングアプローチを採用している。
このハイブリッド戦略は、高感度層が堅牢性を確保するために十分に注意を払っている一方で、寛容層は、先行層から上位$kのインデックスを直接再利用することで、2次計算をバイパスすることができる。
このアプローチにより、LSMは計算を最も重要なトークンに制限し、集中した注意の二次的ボトルネックを効果的に克服することができる。
広範囲な評価の結果,HyLRAは同等の性能を維持しながら6\%--46\%の推論スループットを向上し($<1\%$精度劣化)、常に最先端のスパースアテンション手法よりも優れていた。
HyLRA は \href{https://anonymous.4open.science/r/unified-cache-management-CF80/}{\texttt{/r/unified-cache-management-CF80/}} でオープンソース公開されている。
関連論文リスト
- Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model [21.206033754351786]
マルチモーダル大言語モデル(MLLM)は、視覚トークンの拡散に起因する外乱推論コストに悩まされている。
既存のアプローチでは、トークンの最適化に重点を置いており、さまざまなトークンプルーニング技術を活用して、非極端なビジュアルトークンを排除している。
同様の注意パターンの層間共有を可能にする効果的な注意機構であるLazy Attentionを提案する。
論文 参考訳(メタデータ) (2026-02-02T10:08:00Z) - Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation [34.8993443618652]
本稿では,映像理解と生成の両方に応用可能な汎用モジュールであるPraamid Sparse Attention (PSA)を提案する。
バイナリマスクの代わりに、PSAはマルチレベルプールされたKV表現を導入し、より微細なマスクの粒度を実現した。
この設計は、コンピュータビジョンにおける固定点量子化や古典的特徴ピラミッドネットワークに似ているが、計算効率を低く保ちながら、情報損失を効果的に軽減する。
論文 参考訳(メタデータ) (2025-12-03T18:02:11Z) - Stateful KV Cache Management for LLMs: Balancing Space, Time, Accuracy, and Positional Fidelity [0.0]
キーバリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な自己回帰推論に不可欠である
本稿では,KVキャッシュ管理戦略とメタラマ/メタラマ-3-8b-インストラクトのようなモデルのアーキテクチャ的コンテキスト制限との相互作用について検討する。
論文 参考訳(メタデータ) (2025-10-23T18:22:00Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。