Fugu-MT 論文翻訳(概要): SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

論文の概要: SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

arxiv url: http://arxiv.org/abs/2505.11594v1
Date: Fri, 16 May 2025 18:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.729102
Title: SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training
Title（参考訳）: SageAttention3: 推論のためのマイクロスケーリングFP4アテンションと8ビットトレーニングの探索
Authors: Jintao Zhang, Jia Wei, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei Chen,
Abstract要約: 我々は、ブラックウェルGPUにおける新しいFP4 Coreを活用して、注意計算を高速化する。実験により、FP4の注意は、プラグ・アンド・プレイ方式で様々なモデルの推論を加速できることが示された。トレーニングタスクへの低ビットの注意を開拓しました。
参考スコア（独自算出の注目度）: 24.78957823032679
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The efficiency of attention is important due to its quadratic time complexity. We enhance the efficiency of attention through two key contributions: First, we leverage the new FP4 Tensor Cores in Blackwell GPUs to accelerate attention computation. Our implementation achieves 1038 TOPS on RTX5090, which is a 5x speedup over the fastest FlashAttention on RTX5090. Experiments show that our FP4 attention can accelerate inference of various models in a plug-and-play way. Second, we pioneer low-bit attention to training tasks. Existing low-bit attention works like FlashAttention3 and SageAttention focus only on inference. However, the efficiency of training large models is also important. To explore whether low-bit attention can be effectively applied to training tasks, we design an accurate and efficient 8-bit attention for both forward and backward propagation. Experiments indicate that 8-bit attention achieves lossless performance in fine-tuning tasks but exhibits slower convergence in pretraining tasks. The code will be available at https://github.com/thu-ml/SageAttention.
Abstract（参考訳）: 注意の効率は、その二次的な時間の複雑さのために重要である。まず、新しいFP4 Tensor CoresをBlackwell GPUで活用し、注意計算を高速化する。本実装では,RTX5090上で最速のFlashAttentionよりも5倍高速なRTX5090上で1038 TOPSを実現している。実験により、FP4の注意は、プラグ・アンド・プレイ方式で様々なモデルの推論を加速できることが示された。第2に、トレーニングタスクに対する低ビットの注意を開拓しました。 FlashAttention3やSageAttentionのような既存の低ビットの注意は推論のみに焦点を当てる。しかし、大規模モデルの訓練の効率性も重要である。トレーニングタスクに低ビットの注意を効果的に適用できるかどうかを検討するため,前向きと後向きの両方に正確かつ効率的な8ビットの注意を設計する。実験の結果,8ビットの注意は微調整タスクではロスレス性能を実現するが,事前訓練タスクでは緩やかな収束を示すことがわかった。コードはhttps://github.com/thu-ml/SageAttention.comから入手できる。

関連論文リスト

SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling [24.241825495462397]
既存のスパースアテンション手法は、アテンションマップの少ない領域をスキップすることで、アテンション計算を加速する。モデル精度を損なうことなくLLMの長文プリフィルステージを高速化する細粒度アテンション手法であるSALEを提案する。 SALEはLlama-3.1-8Bで64Kより長いシーケンスで3.36倍のスピードアップを実現し、モデル品質を維持している。
論文参考訳（メタデータ） (2025-05-30T03:40:24Z)
Faster Video Diffusion with Trainable Sparse Attention [53.54796867213139]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文参考訳（メタデータ） (2025-05-19T17:30:13Z)
FlashBias: Fast Computation of Attention with Bias [77.39043478894504]
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。 FlashBiasは、最新のGPUで非常に最適化された行列乗算演算をフル活用でき、AlphaFoldの1.5$times$スピードアップ、そして2$times$スピードアップを達成した。
論文参考訳（メタデータ） (2025-05-17T15:12:50Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文参考訳（メタデータ） (2024-08-11T18:40:36Z)
FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。我々はGPUに注意を向ける3つの主要な技術を開発した。提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文参考訳（メタデータ） (2024-07-11T15:44:48Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。 30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文参考訳（メタデータ） (2020-12-17T18:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。