論文の概要: SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration
- arxiv url: http://arxiv.org/abs/2410.02367v1
- Date: Thu, 3 Oct 2024 10:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 03:40:32.215230
- Title: SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration
- Title(参考訳): SageAttention: プラグインとプレイの推論高速化のための8ビットの正確なアテンション
- Authors: Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen,
- Abstract要約: 本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
- 参考スコア(独自算出の注目度): 21.808835887740543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture predominates across various models. As the heart of the transformer, attention has a computational complexity of O(N^2), compared to O(N) for linear transformations. When handling large sequence lengths, attention becomes the primary time-consuming component. Although quantization has proven to be an effective method for accelerating model inference, existing quantization methods primarily focus on optimizing the linear layer. In response, we first analyze the feasibility of quantization in attention detailedly. Following that, we propose SageAttention, a highly efficient and accurate quantization method for attention. The OPS (operations per second) of our approach outperforms FlashAttention2 and xformers by about 2.1 times and 2.7 times, respectively. SageAttention also achieves superior accuracy performance over FlashAttention3. Comprehensive experiments confirm that our approach incurs almost no end-to-end metrics loss across diverse models, including those for large language processing, image generation, and video generation.
- Abstract(参考訳): トランスアーキテクチャは様々なモデルにまたがって優位である。
変換器の中心として、線形変換のO(N)と比較して、注意はO(N^2)の計算複雑性を持つ。
大きなシーケンス長を扱う場合、注意が主要な時間消費要素となる。
量子化はモデル推論を加速させる効果的な手法であることが証明されているが、既存の量子化法は主に線形層を最適化することに焦点を当てている。
そこで本研究ではまず,注意点における量子化の実現可能性について詳細に分析する。
次に,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチのOPS(オペレーション/秒)は、それぞれFlashAttention2とxformerを2.1倍、xformerを2.7倍上回る。
SageAttentionはまた、FlashAttention3よりも精度の高いパフォーマンスを実現している。
包括的実験により,大規模言語処理,画像生成,ビデオ生成など,多種多様なモデルに対して,エンドツーエンドのメトリクス損失はほとんど生じないことが確認された。
関連論文リスト
- ATTENTION2D: Communication Efficient Distributed Self-Attention Mechanism [0.09889128046943638]
ATTENTION2Dは,クエリとキー/値という2次元の並列性を利用する手法である。
この方法は、複数のデバイスにまたがる計算の効率的かつ並列化を可能にする。
Ring Attentionと比較すると,GPT-3-likeモデルでは5倍の性能向上がみられた。
論文 参考訳(メタデータ) (2025-03-20T00:25:44Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Nearly Lossless Adaptive Bit Switching [8.485009775430411]
ImageNet-1K分類の実験結果から,本手法は多精度・混合精度の両面において,最先端のワンショットジョイントQATに十分な利点があることが示された。
論文 参考訳(メタデータ) (2025-02-03T09:46:26Z) - SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。
時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。
実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
論文 参考訳(メタデータ) (2024-11-17T04:35:49Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - FrameQuant: Flexible Low-Bit Quantization for Transformers [25.569106620123346]
トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。
ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。
様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-03-10T04:01:49Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization [12.136898590792754]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。