Fugu-MT 論文翻訳(概要): SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

論文の概要: SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

arxiv url: http://arxiv.org/abs/2411.10958v1
Date: Sun, 17 Nov 2024 04:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.447102
Title: SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration
Title（参考訳）: SageAttention2テクニカルレポート:Plug-and-play推論高速化のための正確な4ビット注意
Authors: Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen,
Abstract要約: SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
参考スコア（独自算出の注目度）: 22.551095978580147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although quantization for linear layers has been widely used, its application to accelerate the attention process remains limited. SageAttention utilizes 8-bit matrix multiplication, 16-bit matrix multiplication with 16-bit accumulator, and precision-enhancing methods, implementing an accurate and 2x speedup kernel compared to FlashAttention2. To further enhance the efficiency of attention computation while maintaining precision, we propose SageAttention2, which utilizes significantly faster 4-bit matrix multiplication (Matmul) alongside additional precision-enhancing techniques. First, we propose to quantize matrixes $(Q, K)$ to INT4 in a warp-level granularity and quantize matrixes $(\widetilde P, V)$ to FP8. Second, we propose a method to smooth $Q$ and $V$, enhancing the accuracy of attention with INT4 $QK$ and FP8 $PV$. Third, we analyze the quantization accuracy across timesteps and layers, then propose an adaptive quantization method to ensure the end-to-end metrics over various models. The operations per second (OPS) of SageAttention2 surpass FlashAttention2 and xformers by about 3x and 5x on RTX4090, respectively. Comprehensive experiments confirm that our approach incurs negligible end-to-end metrics loss across diverse models, including those for large language processing, image generation, and video generation. The codes are available at https://github.com/thu-ml/SageAttention.
Abstract（参考訳）: 線形層に対する量子化は広く用いられているが、注意プロセスを加速するための応用は限られている。 SageAttentionは8ビットの行列乗算、16ビットの行列乗算と16ビットのアキュムレータを使った16ビットの行列乗算、精度向上手法を利用して、FlashAttention2と比較して正確で2倍のスピードアップカーネルを実装している。そこで我々は,より高速な4ビット行列乗算(Matmul)と追加の精度向上技術を利用するSageAttention2を提案する。まず、行列 $(Q, K) をワープレベルの粒度で INT4 に量子化し、行列 $(\widetilde P, V) を FP8 に量子化する。次に, INT4 $QK$ および FP8 $PV$ を用いて, 注意の正確さを高めるために, 円滑な$Q$ と $V$ を提案する。第三に、時間ステップと層間の量子化精度を分析し、様々なモデルにおけるエンドツーエンドのメトリクスを保証するための適応量子化法を提案する。 SageAttention2の操作(OPS)は、それぞれ、RTX4090のFlashAttention2とxformersを約3倍、5倍上回る。包括的実験により,大規模な言語処理や画像生成,ビデオ生成など,多様なモデルにまたがる,無視可能なエンドツーエンドのメトリクス損失が生じていることが確認された。コードはhttps://github.com/thu-ml/SageAttention.comで入手できる。

関連論文リスト

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity [86.71343842875878]
NVIDIAの2:4 Sparse Coresは2倍のスループットを提供するが、厳しい50%のプルーニングを要求する。 Milder $(2N-2):2N$パターンは正確さを維持しながらハードウェアサポートを受けない。 Sparse Coreアクセラレーションをアンロックする最初のシステムであるSlideSparseを紹介する。
論文参考訳（メタデータ） (2026-03-05T14:49:16Z)
SageAttention2++: A More Efficient Implementation of SageAttention2 [21.70605866986346]
本稿では,FP16に蓄積したFP8 Matmulの高速な命令を利用して,SageAttention2を高速化することを提案する。実験によると、SageAttention2++は、SageAttention2と同じ注意精度を維持しながら、FlashAttentionよりも3.9倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-05-27T12:50:36Z)
Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文参考訳（メタデータ） (2025-04-17T12:52:08Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。 We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
EXAQ: Exponent Aware Quantization For LLMs Acceleration [15.610222058802005]
ソフトマックス関数への入力に対して最適なクリッピング値を決定するための解析的手法を提案する。この方法は$ex$と$sum(ex)$の両方の計算を最小限の精度で高速化する。この超低ビット量子化は、蓄積相において初めて約4倍の加速を可能にする。
論文参考訳（メタデータ） (2024-10-04T06:54:30Z)
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文参考訳（メタデータ） (2024-10-03T10:25:23Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。 LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文参考訳（メタデータ） (2023-10-07T14:50:28Z)
Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2023-09-04T10:27:17Z)
Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文参考訳（メタデータ） (2023-06-21T02:45:01Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T17:46:08Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。 SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文参考訳（メタデータ） (2021-05-23T20:12:35Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。