論文の概要: RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference
- arxiv url: http://arxiv.org/abs/2602.05853v1
- Date: Thu, 05 Feb 2026 16:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.046002
- Title: RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference
- Title(参考訳): RRAttention:ロングコンテキスト推論のためのヘッド単位のラウンドロビンシフトによる動的ブロックスパースアテンション
- Authors: Siran Liu, Guoxia Wang, Sa Wang, Jinle Zeng, HaoYang Xie, Siyu Lou, JiaBin Yang, DianHai Yu, Haifeng Wang, Chao Yang,
- Abstract要約: 本稿では,新しい動的スパースアテンション手法であるRRAttentionを提案する。
ヘッドアンダーラインラウンドアンダーラインロビン(RR)サンプリング戦略により、すべての望ましい特性を同時に達成する。
提案手法は,複雑性を$O(L2)$から$O(L2/S2)$に減らし,最適間隔に適応的なTop-$選択を用いる。
- 参考スコア(独自算出の注目度): 13.524332723947703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of attention mechanisms poses a critical bottleneck for large language models processing long contexts. While dynamic sparse attention methods offer input-adaptive efficiency, they face fundamental trade-offs: requiring preprocessing, lacking global evaluation, violating query independence, or incurring high computational overhead. We present RRAttention, a novel dynamic sparse attention method that simultaneously achieves all desirable properties through a head \underline{r}ound-\underline{r}obin (RR) sampling strategy. By rotating query sampling positions across attention heads within each stride, RRAttention maintains query independence while enabling efficient global pattern discovery with stride-level aggregation. Our method reduces complexity from $O(L^2)$ to $O(L^2/S^2)$ and employs adaptive Top-$τ$ selection for optimal sparsity. Extensive experiments on natural language understanding (HELMET) and multimodal video comprehension (Video-MME) demonstrate that RRAttention recovers over 99\% of full attention performance while computing only half of the attention blocks, achieving 2.4$\times$ speedup at 128K context length and outperforming existing dynamic sparse attention methods.
- Abstract(参考訳): 注意機構の二次的な複雑さは、長いコンテキストを処理する大規模言語モデルにとって重要なボトルネックとなる。
動的スパースアテンション手法は入力適応効率を提供するが、それらは基本的なトレードオフに直面している。
RRAttention, a novel dynamic sparse attention method that which capable to all desired properties through a head \underline{r}ound-\underline{r}obin (RR) sample strategy。
RRAttentionは、各ストライド内の注目ヘッドにまたがるクエリサンプリング位置を回転させることにより、ストライドレベルのアグリゲーションによる効率的なグローバルパターン発見を可能にしながら、クエリ独立性を維持する。
提案手法は,O(L^2)$から$O(L^2/S^2)$への複雑性を低減し,最適間隔に適応的なTop-$τ$選択を用いる。
自然言語理解 (HELMET) とマルチモーダルビデオ理解 (Video-MME) に関する大規模な実験により、RRAttention は注意ブロックの半分を計算しながら 99 % 以上の注意性能を回復し、128K のコンテキスト長で 2.4$\times$ のスピードアップを達成し、既存のダイナミックスパースアテンション手法より優れていることが示された。
関連論文リスト
- AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting [59.31340724915079]
イベントスポッティングは、スポーツ分析、ロボティクス、自律システムにおけるアプリケーションにとって重要なタスクである。
bfAdaSpotは厳格な評価基準の下で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T16:24:48Z) - HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference [11.718567830546538]
大規模言語モデルにおける長文推論は、注意の2次計算の複雑さによってボトルネックとなる。
bf HyLRAは階層ワイド・スパシティ・プロファイリングによって駆動される新しいフレームワークである。
その結果,HyLRAは推論のスループットを6%から46%向上し,同等の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-31T15:36:17Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Making Every Head Count: Sparse Attention Without the Speed-Performance Trade-off [20.259111403684006]
既存のスパース手法は、しばしば計算効率のために情報の整合性を交換する。
我々はSPAttentionを提案し、その中心となる貢献は、原則的構造スパーシリティ(Principled Structure Sparsity)という新しいパラダイムの導入である。
SPAttentionは、全注目作業負荷をバランスの取れた非重なり合う距離バンドに再編成し、各ヘッドにユニークなセグメントを割り当てる。
論文 参考訳(メタデータ) (2025-11-12T14:48:23Z) - Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。
DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。
Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20~60%,ピークメモリ使用量は35%削減された。
論文 参考訳(メタデータ) (2025-10-28T16:34:18Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - LREA: Low-Rank Efficient Attention on Modeling Long-Term User Behaviors for CTR Prediction [22.366063727224173]
既存のアプローチの限界を克服する新しい注意機構であるLREAを紹介する。
LREAは、情報整合性を維持しながら注意力を維持するために特別に設計された損失関数を組み込んでいる。
論文 参考訳(メタデータ) (2025-03-04T12:12:37Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。