論文の概要: INT-FlashAttention: Enabling Flash Attention for INT8 Quantization
- arxiv url: http://arxiv.org/abs/2409.16997v1
- Date: Wed, 25 Sep 2024 15:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:15:16.442557
- Title: INT-FlashAttention: Enabling Flash Attention for INT8 Quantization
- Title(参考訳): INT-Flashアテンション:INT8量子化のためのFlashアテンションの実現
- Authors: Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng, Peizhuang Cong, Zihan Jiang, Lei Su, Tong Yang,
- Abstract要約: INT-FlashAttentionは、FlashAttentionのフォワードワークフローと互換性のある最初の量子化アーキテクチャである。
完全なINT8アクティベーションとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装した。
実験の結果、INT-FlashAttentionは標準のFlashAttentionに比べて72%高速な推論速度と82%の量子化誤差を達成した。
- 参考スコア(独自算出の注目度): 15.562847358060496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the foundation of large language models (LLMs), self-attention module faces the challenge of quadratic time and memory complexity with respect to sequence length. FlashAttention accelerates attention computation and reduces its memory usage by leveraging the GPU memory hierarchy. A promising research direction is to integrate FlashAttention with quantization methods. This paper introduces INT-FlashAttention, the first INT8 quantization architecture compatible with the forward workflow of FlashAttention, which significantly improves the inference speed of FlashAttention on Ampere GPUs. We implement our INT-FlashAttention prototype with fully INT8 activations and general matrix-multiplication (GEMM) kernels, making it the first attention operator with fully INT8 input. As a general token-level post-training quantization framework, INT-FlashAttention is also compatible with other data formats like INT4, etc. Experimental results show INT-FlashAttention achieves 72% faster inference speed and 82% smaller quantization error compared to standard FlashAttention with FP16 and FP8 data format.
- Abstract(参考訳): 大規模言語モデル(LLM)の基礎として、自己保持モジュールは、シーケンス長に関して2次時間とメモリの複雑さの課題に直面している。
FlashAttentionは注意計算を加速し、GPUメモリ階層を活用することでメモリ使用量を削減する。
有望な研究方向は、FlashAttentionと量子化メソッドを統合することである。
本稿では、最初のINT8量子化アーキテクチャであるINT-FlashAttentionを紹介し、Ampere GPUにおけるFlashAttentionの推論速度を大幅に向上させる。
我々は、完全なINT8アクティベートとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装し、完全なINT8入力を持つ最初のアテンション演算子となった。
一般的なトークンレベルのポストトレーニング量子化フレームワークとして、INT-FlashAttentionはINT4などの他のデータフォーマットとも互換性がある。
実験結果から、INT-FlashAttentionはFP16およびFP8データフォーマットの標準FlashAttentionと比較して、推論速度が72%速く、量子化エラーが82%小さいことがわかった。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。
我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。
実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文 参考訳(メタデータ) (2023-11-16T04:11:19Z) - ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training
Quantization Framework for W8A8 Transformers [38.03919998600518]
量子化技術は、ディープニューラルネットワーク推論のメモリと計算要求を減らす上で重要である。
ZeroQuantのような既存のソリューションはBERTやGPTのようなモデルに対して動的量子化を提供するが、重要なメモリバウンド演算子やトーケン量子化の複雑さを見落としている。
我々は,完全ハードウェアで強化された,学習後W8A8量子化フレームワークZeroQuant-HEROを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:34:41Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。