論文の概要: SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training
- arxiv url: http://arxiv.org/abs/2505.11594v1
- Date: Fri, 16 May 2025 18:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.729102
- Title: SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training
- Title(参考訳): SageAttention3: 推論のためのマイクロスケーリングFP4アテンションと8ビットトレーニングの探索
- Authors: Jintao Zhang, Jia Wei, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei Chen,
- Abstract要約: 我々は、ブラックウェルGPUにおける新しいFP4 Coreを活用して、注意計算を高速化する。
実験により、FP4の注意は、プラグ・アンド・プレイ方式で様々なモデルの推論を加速できることが示された。
トレーニングタスクへの低ビットの注意を開拓しました。
- 参考スコア(独自算出の注目度): 24.78957823032679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficiency of attention is important due to its quadratic time complexity. We enhance the efficiency of attention through two key contributions: First, we leverage the new FP4 Tensor Cores in Blackwell GPUs to accelerate attention computation. Our implementation achieves 1038 TOPS on RTX5090, which is a 5x speedup over the fastest FlashAttention on RTX5090. Experiments show that our FP4 attention can accelerate inference of various models in a plug-and-play way. Second, we pioneer low-bit attention to training tasks. Existing low-bit attention works like FlashAttention3 and SageAttention focus only on inference. However, the efficiency of training large models is also important. To explore whether low-bit attention can be effectively applied to training tasks, we design an accurate and efficient 8-bit attention for both forward and backward propagation. Experiments indicate that 8-bit attention achieves lossless performance in fine-tuning tasks but exhibits slower convergence in pretraining tasks. The code will be available at https://github.com/thu-ml/SageAttention.
- Abstract(参考訳): 注意の効率は、その二次的な時間の複雑さのために重要である。
まず、新しいFP4 Tensor CoresをBlackwell GPUで活用し、注意計算を高速化する。
本実装では,RTX5090上で最速のFlashAttentionよりも5倍高速なRTX5090上で1038 TOPSを実現している。
実験により、FP4の注意は、プラグ・アンド・プレイ方式で様々なモデルの推論を加速できることが示された。
第2に、トレーニングタスクに対する低ビットの注意を開拓しました。
FlashAttention3やSageAttentionのような既存の低ビットの注意は推論のみに焦点を当てる。
しかし、大規模モデルの訓練の効率性も重要である。
トレーニングタスクに低ビットの注意を効果的に適用できるかどうかを検討するため,前向きと後向きの両方に正確かつ効率的な8ビットの注意を設計する。
実験の結果,8ビットの注意は微調整タスクではロスレス性能を実現するが,事前訓練タスクでは緩やかな収束を示すことがわかった。
コードはhttps://github.com/thu-ml/SageAttention.comから入手できる。
関連論文リスト
- Faster Video Diffusion with Trainable Sparse Attention [53.54796867213139]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。
30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文 参考訳(メタデータ) (2020-12-17T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。