論文の概要: PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention
- arxiv url: http://arxiv.org/abs/2503.03588v1
- Date: Wed, 05 Mar 2025 15:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:29.840996
- Title: PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention
- Title(参考訳): PowerAttention: 効果的なスパースアテンションのための受信フィールドの指数スケーリング
- Authors: Lida Chen, Dong Xu, Chenxin An, Xintao Wang, Yikai Zhang, Jiangjie Chen, Zujie Liang, Feng Wei, Jiaqing Liang, Yanghua Xiao, Wei Wang,
- Abstract要約: 大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
- 参考スコア(独自算出の注目度): 73.26995918610669
- License:
- Abstract: Large Language Models (LLMs) face efficiency bottlenecks due to the quadratic complexity of the attention mechanism when processing long contexts. Sparse attention methods offer a promising solution, but existing approaches often suffer from incomplete effective context and/or require complex implementation of pipeline. We present a comprehensive analysis of sparse attention for autoregressive LLMs from the respective of receptive field, recognize the suboptimal nature of existing methods for expanding the receptive field, and introduce PowerAttention, a novel sparse attention design that facilitates effective and complete context extension through the theoretical analysis. PowerAttention achieves exponential receptive field growth in $d$-layer LLMs, allowing each output token to attend to $2^d$ tokens, ensuring completeness and continuity of the receptive field. Experiments demonstrate that PowerAttention outperforms existing static sparse attention methods by $5\sim 40\%$, especially on tasks demanding long-range dependencies like Passkey Retrieval and RULER, while maintaining a comparable time complexity to sliding window attention. Efficiency evaluations further highlight PowerAttention's superior speedup in both prefilling and decoding phases compared with dynamic sparse attentions and full attention ($3.0\times$ faster on 128K context), making it a highly effective and user-friendly solution for processing long sequences in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
スパースアテンションメソッドは、有望なソリューションを提供するが、既存のアプローチは、しばしば不完全な効果的なコンテキストに悩まされ、パイプラインの複雑な実装を必要とする。
本稿では,受容領域のそれぞれから自己回帰的LLMのスパースアテンションを包括的に分析し,受容領域を拡張するための既存の手法の最適下限の性質を認識し,理論解析による有効かつ完全なコンテキスト拡張を容易にする新規なスパースアテンションデザインであるPowerAttentionを紹介する。
PowerAttentionは、$d$-layer LLMsの指数的受容場成長を実現し、各出力トークンが2^d$トークンに到達し、受容場の完全性と連続性を保証する。
PowerAttentionは、特にPasskey RetrievalやRULERのような長距離依存関係を必要とするタスクにおいて、既存の静的スパースアテンションメソッドを5$40\%$で上回っている。
効率評価は、動的スパースアテンションとフルアテンション(128Kコンテキストで3.0\times$ faster)と比較して、PowerAttentionのプリフィルとデコードフェーズにおける優れたスピードアップを強調しており、LLMの長いシーケンスを処理するための非常に効果的でユーザフレンドリなソリューションである。
関連論文リスト
- Ltri-LLM: Streaming Long Context Inference for LLMs with Training-Free Dynamic Triangular Attention Pattern [13.314424072207379]
我々は,KVをスパンに分割し,それらをオフラインインデックスに格納し,関連するKVをメモリに格納するLtri-LLMフレームワークを提案する。
一般的な長文ベンチマークによる実験結果から,Ltri-LLMは効率のよいストリーミングベース推論を維持しつつ,FAに近い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-12-06T03:46:06Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。