論文の概要: S2-Attention: Hardware-Aware Context Sharding Among Attention Heads
- arxiv url: http://arxiv.org/abs/2407.17678v3
- Date: Wed, 02 Oct 2024 12:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:26.031641
- Title: S2-Attention: Hardware-Aware Context Sharding Among Attention Heads
- Title(参考訳): S2-Attention: ハードウェア対応のコンテキストシャーディング
- Authors: Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song,
- Abstract要約: スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
- 参考スコア(独自算出の注目度): 49.1454481007861
- License:
- Abstract: Sparse attention, which selectively attends to a subset of tokens in the context was supposed to be efficient. However, its theoretical reduction in FLOPs has rarely translated into wall-clock speed-up over its dense attention counterparts due to the lack of hardware-aware optimizations like FlashAttention. Meanwhile, it remains unclear whether sparse attention can maintain the model's quality at a scale of today's large language models (LLMs) and how. This paper presents Sparsely-Sharded(S2) Attention, a Triton library that provides kernel optimization for sparse attention customizable at both per-head and per-context-range levels. S2-Attention enables the exploration of novel and high-performance sparse attention techniques, which we demonstrate through extensive ablations across a wide range of sparse attention designs at various model scales. From these insights, we present several basic guidelines to design sparse attention that can achieve not only practical efficiency improvements, but also strong downstream performance. To achieve high parallelization and optimized memory IO, sparse attention should shard the context heterogeneously across attention heads, where each head attends to a different subset of tokens while collectively covering the full context. Meanwhile, we find hybrid architectures combining sparse and dense attention particularly beneficial in practice. S2-Attention achieves wall-clock speedup of 8.79X, 15.87X, 25.3X compared to the strong FlashAttention-2 baseline with strong downstream performance on-par with full attention and perfect retrieval performance at a 128k context length. At inference, for 7B models, our model, with the help of our S2-Attention kernel, achieves 4.5x speed-up compared to dense counterparts. S2-Attention is released with easy-to-customize APIs for direct usage in Megatron and vLLM.
- Abstract(参考訳): コンテキスト内のトークンのサブセットに選択的に出席するスパースアテンションは効率的であるはずだった。
しかし、FLOPの理論的削減は、FlashAttentionのようなハードウェアを意識した最適化が欠如しているため、その注目度よりもウォールクロックのスピードアップにはほとんど変換されていない。
一方、現在の大規模言語モデル(LLM)の規模でモデルの品質を維持することができるのか、どのようにして、疎い注意が維持できるのかは、まだ不明である。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
S2-Attention は新規かつ高性能なスパースアテンション手法の探索を可能にする。
これらの知見から,本研究は,実用的な効率向上だけでなく,下流の性能向上にも寄与する疎度な注意を設計するための基本的なガイドラインを提示する。
高い並列化と最適化されたメモリIOを実現するために、スパースアテンションは、各ヘッドが全コンテキストを包含しながら異なるトークンのサブセットに出席する、アテンションヘッド間でコンテキストを均一に共有するべきである。
一方、疎度と密集度を組み合わせたハイブリッドアーキテクチャは、実際は特に有益である。
S2-Attentionは、強いFlashAttention-2ベースラインと比較して8.79X、15.87X、25.3Xのウォールクロックスピードアップを達成する。
7Bモデルでは,S2-Attentionカーネルの助けを借りて,密度の高いカーネルに比べて4.5倍の高速化を実現している。
S2-AttentionはMegatronとvLLMで直接使用するために、容易にカスタマイズできるAPIでリリースされている。
関連論文リスト
- Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Self-Selected Attention Span for Accelerating Large Language Model Inference [10.305434265471938]
大規模言語モデル(LLM)は困難なタスクを解くことができる。
LLMの推論計算は、新しいトークンを生成する際に出席しなければならないトークンの数が増えるため、非常に非効率である。
LLMの問題解決能力を利用して、推論時間の効率を最適化する。
論文 参考訳(メタデータ) (2024-04-14T19:36:04Z) - OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning [57.43911113915546]
FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。
FSCILの手法は、データが漸進的に到着するにつれて、破滅的な忘れ込みの課題に直面している。
表現空間における特徴の直交性と対照的な学習という2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:30:48Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - CoSCL: Cooperation of Small Continual Learners is Stronger than a Big
One [40.32426713582231]
連続学習における可塑性学習の一般化誤差と記憶安定性を解析する。
複数の並列部分で逐次体験を処理できる頑健な生物学的学習システムに着想を得て,小連続学習者の連携を提案する。
CoSCLは、様々な連続学習アプローチを大きなマージンで改善することができる。
論文 参考訳(メタデータ) (2022-07-13T23:00:27Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。