論文の概要: SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
- arxiv url: http://arxiv.org/abs/2410.13276v1
- Date: Thu, 17 Oct 2024 07:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:12.354059
- Title: SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
- Title(参考訳): シードアテンション: LLMにおける本質的なスパースアテンションの学習
- Authors: Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang,
- Abstract要約: 本研究では,従来の注意を学習可能なゲートで強化する新しい注意機構を開発し,注意マップ内の重要なブロックを適応的に選択し,残りのブロックがスパースであると推定する。
SeerAttentionは32k長の顕著な90%のパリシティ比を達成でき、FlashAttention-2の5.67倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 11.334069751834264
- License:
- Abstract: Attention is the cornerstone of modern Large Language Models (LLMs). Yet its quadratic complexity limits the efficiency and scalability of LLMs, especially for those with a long-context window. A promising approach addressing this limitation is to leverage the sparsity in attention. However, existing sparsity-based solutions predominantly rely on predefined patterns or heuristics to approximate sparsity. This practice falls short to fully capture the dynamic nature of attention sparsity in language-based tasks. This paper argues that attention sparsity should be learned rather than predefined. To this end, we design SeerAttention, a new Attention mechanism that augments the conventional attention with a learnable gate that adaptively selects significant blocks in an attention map and deems the rest blocks sparse. Such block-level sparsity effectively balances accuracy and speedup. To enable efficient learning of the gating network, we develop a customized FlashAttention implementation that extracts the block-level ground truth of attention map with minimum overhead. SeerAttention not only applies to post-training, but also excels in long-context fine-tuning. Our results show that at post-training stages, SeerAttention significantly outperforms state-of-the-art static or heuristic-based sparse attention methods, while also being more versatile and flexible to adapt to varying context lengths and sparsity ratios. When applied to long-context fine-tuning with YaRN, SeerAttention can achieve a remarkable 90% sparsity ratio at a 32k context length with minimal perplexity loss, offering a 5.67x speedup over FlashAttention-2.
- Abstract(参考訳): 現代のLarge Language Models (LLM) の基盤となっている。
しかし、その二次的な複雑さはLLMの効率性とスケーラビリティを制限しており、特に長いコンテキストのウィンドウを持つ場合である。
この制限に対処する有望なアプローチは、注意の疎さを活用することである。
しかし、既存のスパシティベースのソリューションは、主にスパシティを近似するために事前に定義されたパターンやヒューリスティックに依存している。
このプラクティスは、言語ベースのタスクにおける注意空間の動的性質を完全に捉えるには不十分である。
本論では,事前定義よりも注意散らかさを学習すべきだと論じる。
この目的のために,注意マップ内の重要なブロックを適応的に選択し,残りのブロックのスパースを推定する学習可能なゲートを用いて,従来の注意を増大させる新しい注意機構であるSeerAttentionを設計する。
このようなブロックレベルの空間性は、精度とスピードアップを効果的にバランスさせる。
ゲーティングネットワークの効率的な学習を実現するため,最小限のオーバーヘッドでブロックレベルの注目マップの真実を抽出するFlashAttention実装を開発した。
SeerAttentionはポストトレーニングに適用されるだけでなく、長いコンテキストの微調整にも優れている。
以上の結果から,SeerAttention は訓練後の段階において,静的あるいはヒューリスティックなスパースアテンション法よりも優れ,文脈長や空間比の変動に適応しやすく,柔軟性が高いことが示唆された。
YaRNによる長いコンテキストの微調整に適用すると、SeerAttentionは32kコンテキスト長で顕著な90%の間隔比を達成でき、FlashAttention-2よりも5.67倍のスピードアップを提供する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - MoBA: Mixture of Block Attention for Long-Context LLMs [46.10222520755179]
汎用人工知能(AGI)に向けた大規模言語モデル(LLM)の進展に有効な文脈長のスケーリングが不可欠である
既存のアプローチでは、タスク固有のシンクやウィンドウアテンションなどの強いバイアスのある構造を課すか、あるいは、アテンションメカニズムを線形近似に根本的に変更する。
そこで本研究では,より少ない構造原理に固執する解を提案し,モデルが自律的に出席する場所を決定する。
論文 参考訳(メタデータ) (2025-02-18T14:06:05Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:38:13Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。