論文の概要: SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
- arxiv url: http://arxiv.org/abs/2410.13276v2
- Date: Fri, 18 Oct 2024 05:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 10:25:38.314937
- Title: SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
- Title(参考訳): シードアテンション: LLMにおける本質的なスパースアテンションの学習
- Authors: Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang,
- Abstract要約: 本研究では,従来の注意を学習可能なゲートで強化する新しい注意機構を開発し,注意マップ内の重要なブロックを適応的に選択し,残りのブロックがスパースであると推定する。
SeerAttentionは32k長の顕著な90%のパリシティ比を達成でき、FlashAttention-2の5.67倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 11.334069751834264
- License:
- Abstract: Attention is the cornerstone of modern Large Language Models (LLMs). Yet its quadratic complexity limits the efficiency and scalability of LLMs, especially for those with a long-context window. A promising approach addressing this limitation is to leverage the sparsity in attention. However, existing sparsity-based solutions predominantly rely on predefined patterns or heuristics to approximate sparsity. This practice falls short to fully capture the dynamic nature of attention sparsity in language-based tasks. This paper argues that attention sparsity should be learned rather than predefined. To this end, we design SeerAttention, a new Attention mechanism that augments the conventional attention with a learnable gate that adaptively selects significant blocks in an attention map and deems the rest blocks sparse. Such block-level sparsity effectively balances accuracy and speedup. To enable efficient learning of the gating network, we develop a customized FlashAttention implementation that extracts the block-level ground truth of attention map with minimum overhead. SeerAttention not only applies to post-training, but also excels in long-context fine-tuning. Our results show that at post-training stages, SeerAttention significantly outperforms state-of-the-art static or heuristic-based sparse attention methods, while also being more versatile and flexible to adapt to varying context lengths and sparsity ratios. When applied to long-context fine-tuning with YaRN, SeerAttention can achieve a remarkable 90% sparsity ratio at a 32k context length with minimal perplexity loss, offering a 5.67x speedup over FlashAttention-2.
- Abstract(参考訳): 現代のLarge Language Models (LLM) の基盤となっている。
しかし、その二次的な複雑さはLLMの効率性とスケーラビリティを制限しており、特に長いコンテキストのウィンドウを持つ場合である。
この制限に対処する有望なアプローチは、注意の疎さを活用することである。
しかし、既存のスパシティベースのソリューションは、主にスパシティを近似するために事前に定義されたパターンやヒューリスティックに依存している。
このプラクティスは、言語ベースのタスクにおける注意空間の動的性質を完全に捉えるには不十分である。
本論では,事前定義よりも注意散らかさを学習すべきだと論じる。
この目的のために,注意マップ内の重要なブロックを適応的に選択し,残りのブロックのスパースを推定する学習可能なゲートを用いて,従来の注意を増大させる新しい注意機構であるSeerAttentionを設計する。
このようなブロックレベルの空間性は、精度とスピードアップを効果的にバランスさせる。
ゲーティングネットワークの効率的な学習を実現するため,最小限のオーバーヘッドでブロックレベルの注目マップの真実を抽出するFlashAttention実装を開発した。
SeerAttentionはポストトレーニングに適用されるだけでなく、長いコンテキストの微調整にも優れている。
以上の結果から,SeerAttention は訓練後の段階において,静的あるいはヒューリスティックなスパースアテンション法よりも優れ,文脈長や空間比の変動に適応しやすく,柔軟性が高いことが示唆された。
YaRNによる長いコンテキストの微調整に適用すると、SeerAttentionは32kコンテキスト長で顕著な90%の間隔比を達成でき、FlashAttention-2よりも5.67倍のスピードアップを提供する。
関連論文リスト
- S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - ReAttention: Training-Free Infinite Context with Finite Attention Scope [65.91272939057592]
LLM(Large Language Models)の長期コンテキスト能力は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用的アプリケーションを制限する重要なボトルネックのままである。
本稿では,bftextReAttentionを提案する。bftextReAttentionは,自己アテンション機構をベースとしたLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な学習自由な手法である。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - Towards Using Count-level Weak Supervision for Crowd Counting [55.58468947486247]
本稿では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。
我々は、生成した密度マップの自由を制限するための正規化を構築するために、単純なyet効果のトレーニング戦略、すなわちMultiple Auxiliary Tasks Training (MATT)を考案した。
論文 参考訳(メタデータ) (2020-02-29T02:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。