論文の概要: MixDiT: Accelerating Image Diffusion Transformer Inference with Mixed-Precision MX Quantization
- arxiv url: http://arxiv.org/abs/2504.08398v1
- Date: Fri, 11 Apr 2025 10:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:44.116696
- Title: MixDiT: Accelerating Image Diffusion Transformer Inference with Mixed-Precision MX Quantization
- Title(参考訳): MixDiT:Mix-Precision MX量子化による画像拡散変換器の高速化
- Authors: Daeun Kim, Jinwoo Hwang, Changhun Oh, Jongse Park,
- Abstract要約: MixDiTは、DiT推論のためのアルゴリズムとハードウェアを共設計したアクセラレーションソリューションである。
MixDiTは、Ditアクティベーションテンソルを、グレードベースのアウトレイアに高い精度を選択的に適用することで定量化する。
実験の結果、MixDiTはGTX 3090より2.10-5.32倍のスピードアップを実現しており、FIDは失われていない。
- 参考スコア(独自算出の注目度): 1.4195902871364274
- License:
- Abstract: Diffusion Transformer (DiT) has driven significant progress in image generation tasks. However, DiT inferencing is notoriously compute-intensive and incurs long latency even on datacenter-scale GPUs, primarily due to its iterative nature and heavy reliance on GEMM operations inherent to its encoder-based structure. To address the challenge, prior work has explored quantization, but achieving low-precision quantization for DiT inferencing with both high accuracy and substantial speedup remains an open problem. To this end, this paper proposes MixDiT, an algorithm-hardware co-designed acceleration solution that exploits mixed Microscaling (MX) formats to quantize DiT activation values. MixDiT quantizes the DiT activation tensors by selectively applying higher precision to magnitude-based outliers, which produce mixed-precision GEMM operations. To achieve tangible speedup from the mixed-precision arithmetic, we design a MixDiT accelerator that enables precision-flexible multiplications and efficient MX precision conversions. Our experimental results show that MixDiT delivers a speedup of 2.10-5.32 times over RTX 3090, with no loss in FID.
- Abstract(参考訳): Diffusion Transformer (DiT) は画像生成タスクに大きな進歩をもたらした。
しかし、DiT推論は計算集約的であり、主にエンコーダベースの構造に固有の反復的な性質とGEMM操作に大きく依存するため、データセンタースケールのGPUでも長時間の遅延が発生することが知られている。
この課題に対処するために、先行研究は量子化について検討してきたが、精度と実質的なスピードアップの両方でDiT推論の低精度量子化を実現することは未解決の問題である。
そこで本研究では,DiTのアクティベーション値の定量化に,混在するマイクロスケーリング(MX)フォーマットを利用する,アルゴリズムハードウェアの共同設計型アクティベーションソリューションであるMixDiTを提案する。
MixDiT は DiT アクティベーションテンソルの量子化を行い、より高精度な GEMM 演算を生成する。
混合精度演算から有意な高速化を実現するため、精度柔軟な乗算と効率的なMX精度変換を可能にするMixDiTアクセラレータを設計する。
実験の結果,MixDiTはRTX 3090で2.10-5.32倍の高速化を実現し,FIDは失われなかった。
関連論文リスト
- Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Adaptive variational quantum dynamics simulations with compressed circuits and fewer measurements [4.2643127089535104]
AVQDS(T)と呼ばれる適応変分量子力学シミュレーション(AVQDS)法の改良版を示す。
このアルゴリズムは、変分力学の精度の尺度であるマクラクラン距離を一定しきい値以下に保つために、アンザッツ回路に不連結なユニタリゲートの層を適応的に加算する。
また、雑音耐性を増強した変動パラメータに対する線形運動方程式を解くために、固有値トランケーションに基づく手法を示す。
論文 参考訳(メタデータ) (2024-08-13T02:56:43Z) - Patch-wise Mixed-Precision Quantization of Vision Transformer [2.3104000011280403]
視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己注意計算を必要とする。
本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。
論文 参考訳(メタデータ) (2023-05-11T04:34:10Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。