論文の概要: DistrAttention: An Efficient and Flexible Self-Attention Mechanism on Modern GPUs
- arxiv url: http://arxiv.org/abs/2507.17245v1
- Date: Wed, 23 Jul 2025 06:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.880193
- Title: DistrAttention: An Efficient and Flexible Self-Attention Mechanism on Modern GPUs
- Title(参考訳): DistrAttention: 最新のGPU上での効率的かつ柔軟な自己認識メカニズム
- Authors: Haolin Jin, Mengbai Xiao, Yuan Yuan, Xiao Zhang, Dongxiao Yu, Guanghui Zhang, Haoliang Wang,
- Abstract要約: DistrAttentionは、完全なコンテキストを持つ、効率的で柔軟な自己認識メカニズムである。
本手法は自己注意の計算においてFlashAttention-2よりも37%高速である。
ViT推論では、DistrAttentionは近似自己認識機構の中で最も速く、最も正確である。
- 参考スコア(独自算出の注目度): 23.08260152364582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has revolutionized deep learning, delivering the state-of-the-art performance in areas such as natural language processing, computer vision, and time series prediction. However, its core component, self-attention, has the quadratic time complexity relative to input sequence length, which hinders the scalability of Transformers. The exsiting approaches on optimizing self-attention either discard full-contextual information or lack of flexibility. In this work, we design DistrAttention, an effcient and flexible self-attention mechanism with the full context. DistrAttention achieves this by grouping data on the embedding dimensionality, usually referred to as $d$. We realize DistrAttention with a lightweight sampling and fusion method that exploits locality-sensitive hashing to group similar data. A block-wise grouping framework is further designed to limit the errors introduced by locality sensitive hashing. By optimizing the selection of block sizes, DistrAttention could be easily integrated with FlashAttention-2, gaining high-performance on modern GPUs. We evaluate DistrAttention with extensive experiments. The results show that our method is 37% faster than FlashAttention-2 on calculating self-attention. In ViT inference, DistrAttention is the fastest and the most accurate among approximate self-attention mechanisms. In Llama3-1B, DistrAttention still achieves the lowest inference time with only 1% accuray loss.
- Abstract(参考訳): Transformerアーキテクチャはディープラーニングに革命をもたらし、自然言語処理、コンピュータビジョン、時系列予測などの分野で最先端のパフォーマンスを提供する。
しかし、コアコンポーネントであるセルフアテンションは入力シーケンス長に対して2次時間複雑さを持ち、トランスフォーマーのスケーラビリティを妨げている。
排他的アプローチは、完全なコンテキスト情報を捨てるか、柔軟性の欠如を解消するか、自己注意を最適化する。
本研究は,全コンテキストで効率よく柔軟な自己認識機構であるDistrAttentionを設計する。
DistrAttentionは埋め込み次元に関するデータをグループ化し、通常$d$と呼ばれる。
類似したデータをグループ化するために、局所性に敏感なハッシュを利用する軽量サンプリングと融合方式でDistrAttentionを実現する。
ブロックワイドなグループ化フレームワークは、局所性に敏感なハッシュによってもたらされるエラーを制限するように設計されている。
ブロックサイズの選択を最適化することで、DistrAttentionはFlashAttention-2と簡単に統合することができ、最新のGPUで高いパフォーマンスを得ることができた。
広範囲な実験によりDistrAttentionを評価した。
その結果,本手法は自己注意の計算においてFlashAttention-2よりも37%高速であることがわかった。
ViT推論では、DistrAttentionは近似自己認識機構の中で最も速く、最も正確である。
Llama3-1Bでは、DistrAttentionは1%の加速損失しか得られず、最も低い推論時間を達成する。
関連論文リスト
- FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation [1.4525238046020867]
Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
本稿では,拡散モデルに基づくオープン語彙セグメンテーションのためのトレーニングフリーフレームワークであるFA-Segを提案する。
論文 参考訳(メタデータ) (2025-06-29T16:41:41Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。
本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:59:58Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。