論文の概要: Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level
- arxiv url: http://arxiv.org/abs/2403.04690v2
- Date: Fri, 22 Mar 2024 16:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:51:11.365175
- Title: Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level
- Title(参考訳): 近隣のより高速な注意:スレッドブロックレベルでの自己注意のO(n^2)コスト削減
- Authors: Ali Hassani, Wen-Mei Hwu, Humphrey Shi,
- Abstract要約: 近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
そこで本研究では,従来のGEMM問題と同様に,近隣の注意をバッチ化したGEMM問題として表現し,その実装を1次元,2次元の近所の注意のために行なえることを示す。
我々はまた、異なる空間軸にまたがる注意を細かく制御できる、融合したドット積アテンションカーネルの適応として、融合した近傍アテンションも展開する。
- 参考スコア(独自算出の注目度): 30.681204292813998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neighborhood attention reduces the cost of self attention by restricting each token's attention span to its nearest neighbors. This restriction, parameterized by a window size and dilation factor, draws a spectrum of possible attention patterns between linear projection and self attention. Neighborhood attention, and more generally sliding window attention patterns, have long been bounded by infrastructure, particularly in higher-rank spaces (2-D and 3-D), calling for the development of custom kernels, which have been limited in either functionality, or performance, if not both. In this work, we first show that neighborhood attention can be represented as a batched GEMM problem, similar to standard attention, and implement it for 1-D and 2-D neighborhood attention. These kernels on average provide 895% and 272% improvement in full precision latency compared to existing naive kernels for 1-D and 2-D neighborhood attention respectively. We find certain inherent inefficiencies in all unfused neighborhood attention kernels that bound their performance and lower-precision scalability. We also developed fused neighborhood attention; an adaptation of fused dot-product attention kernels that allow fine-grained control over attention across different spatial axes. Known for reducing the quadratic time complexity of self attention to a linear complexity, neighborhood attention can now enjoy a reduced and constant memory footprint, and record-breaking half precision latency. We observe that our fused kernels successfully circumvent some of the unavoidable inefficiencies in unfused implementations. While our unfused GEMM-based kernels only improve half precision performance compared to naive kernels by an average of 496% and 113% in 1-D and 2-D problems respectively, our fused kernels improve naive kernels by an average of 1607% and 581% in 1-D and 2-D problems respectively.
- Abstract(参考訳): 近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
この制限は、ウィンドウサイズと拡張係数によってパラメータ化され、線形投影と自己注意の間の潜在的な注意パターンのスペクトルを引き出す。
特に高階空間(2-Dと3-D)では、機能や性能に制限があるカスタムカーネルの開発が求められている。
本研究は,まず,従来のGEMM問題と同様のバッチ化問題として近所の注意を表現できることを示し,その実装を1次元,2次元の近所の注意のために行う。
これらのカーネルの平均は895%と272%で、既存の1次元と2次元の隣り合わせのカーネルと比較して、完全なレイテンシが向上している。
我々は、その性能と低い精度のスケーラビリティを束縛する、未利用の周辺注目カーネルに固有の非効率性を見出した。
我々はまた、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルの適応として、融合した近傍アテンションも開発した。
線形複雑性への自己注意の二次的時間的複雑さを低減したことで知られ、近隣の注意は減少し、一定のメモリフットプリントを享受し、記録破りの半精度のレイテンシーを享受できるようになった。
我々は、融合カーネルが、未利用実装における避けられない非効率を回避できたことを観察する。
GEMMをベースとしたカーネルは, 平均496%, 平均113%の1-D問題に対して, 平均1607%, 平均581%の2-D問題に対して, 半精度しか改善していない。
関連論文リスト
- Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective [40.69646918673903]
2層ニューラルネットワークは、どのカーネル手法よりも効率的に複数の再生カーネルヒルベルト空間の結合を学習できることを示す。
また,グローバルな最適度に収束するラベルノイズプロシージャを開発し,その自由度が暗黙の正規化として現れることを示す。
論文 参考訳(メタデータ) (2024-03-22T02:41:57Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [89.52560850737663]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z) - POCKET: Pruning Random Convolution Kernels for Time Series Classification from a Feature Selection Perspective [8.359327841946852]
2つの時系列分類モデル、ROCKETとMINIROCKETは、特徴を捉えるために多数のランダムな1-D畳み込みカーネルを必要とする。
本稿では,効果的にモデルを作成するための2つの革新的アルゴリズムを提案する。
実験の結果、POCKETは精度を著しく低下させることなく最大60%のカーネルを出力し、そのカーネルよりも11倍高速に動作していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T16:03:23Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Multiple Kernel Clustering with Dual Noise Minimization [56.009011016367744]
マルチカーネルクラスタリング(MKC)は、ベースカーネルから補完的な情報を統合することでデータをグループ化する。
本稿では,双対雑音を厳密に定義し,パラメータフリーなMKCアルゴリズムを提案する。
二重ノイズはブロック対角構造を汚染し,クラスタリング性能の劣化を招き,CノイズはNノイズよりも強い破壊を示す。
論文 参考訳(メタデータ) (2022-07-13T08:37:42Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Isolation Distributional Kernel: A New Tool for Point & Group Anomaly
Detection [76.1522587605852]
分離分散カーネル(IDK)は2つの分布の類似性を測定する新しい方法である。
我々は、カーネルベースの異常検出のための新しいツールとして、IDKの有効性と効率を示す。
論文 参考訳(メタデータ) (2020-09-24T12:25:43Z) - AttentionNAS: Spatiotemporal Attention Cell Search for Video
Classification [86.64702967379709]
本稿では,時間的注意のための新しい検索空間を提案する。これにより,検索アルゴリズムはセルの様々な設計選択を柔軟に探索することができる。
検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオの精度を2%以上改善することができる。
論文 参考訳(メタデータ) (2020-07-23T14:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。