Fugu-MT 論文翻訳(概要): An Analysis on Quantizing Diffusion Transformers

論文の概要: An Analysis on Quantizing Diffusion Transformers

arxiv url: http://arxiv.org/abs/2406.11100v1
Date: Sun, 16 Jun 2024 23:18:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 19:03:42.116810
Title: An Analysis on Quantizing Diffusion Transformers
Title（参考訳）: 拡散変圧器の量子化に関する検討
Authors: Yuewei Yang, Jialiang Wang, Xiaoliang Dai, Peizhao Zhang, Hongbo Zhang,
Abstract要約: ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。低ビット量子化のために,アクティベーションの単一ステップサンプリング校正と重みのグループワイド量子化を提案する。
参考スコア（独自算出の注目度）: 19.520194468481655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Models (DMs) utilize an iterative denoising process to transform random noise into synthetic data. Initally proposed with a UNet structure, DMs excel at producing images that are virtually indistinguishable with or without conditioned text prompts. Later transformer-only structure is composed with DMs to achieve better performance. Though Latent Diffusion Models (LDMs) reduce the computational requirement by denoising in a latent space, it is extremely expensive to inference images for any operating devices due to the shear volume of parameters and feature sizes. Post Training Quantization (PTQ) offers an immediate remedy for a smaller storage size and more memory-efficient computation during inferencing. Prior works address PTQ of DMs on UNet structures have addressed the challenges in calibrating parameters for both activations and weights via moderate optimization. In this work, we pioneer an efficient PTQ on transformer-only structure without any optimization. By analysing challenges in quantizing activations and weights for diffusion transformers, we propose a single-step sampling calibration on activations and adapt group-wise quantization on weights for low-bit quantization. We demonstrate the efficiency and effectiveness of proposed methods with preliminary experiments on conditional image generation.
Abstract（参考訳）: 拡散モデル (DM) は、ランダムノイズを合成データに変換するために反復的復調法を用いる。 UNet構造で最初に提案されたDMは、条件付きテキストプロンプトとほぼ区別できない画像を生成するのに優れている。後にトランスのみの構造がDMで構成され、性能が向上する。遅延拡散モデル(LDMs)は、遅延空間でノイズを発生させることによって計算要求を低減させるが、パラメータのせん断量や特徴サイズのため、任意のオペレーティングシステムのイメージを推測することは極めて高価である。ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。 UNet構造上のDMのPTQに対処する以前の研究は、適度な最適化によってアクティベーションとウェイトの両方のパラメータを校正する際の課題に対処してきた。本研究では,変圧器のみの構造を最適化せずに効率的なPTQを考案する。拡散変圧器のアクティベーションと重みの定量化の課題を分析することにより、活性化の単一ステップサンプリングキャリブレーションと、低ビット量子化のための重みのグループワイド量子化を提案する。条件付き画像生成における予備実験による提案手法の有効性と有効性を示す。

関連論文リスト

DFQ-ViT: Data-Free Quantization for Vision Transformers without Fine-tuning [9.221916791064407]
データフリー量子化(DFQ)は、データへのアクセスを必要とせずにビジョントランスフォーマー(ViT)の量子化を可能にし、限られたリソースを持つデバイスにViTをデプロイすることを可能にする。既存の手法では、サンプル内のグローバルな特徴とローカルな特徴を完全にキャプチャしてバランスをとることができず、結果として合成データの品質が制限される。視覚変換用データフリー量子化パイプライン(DFQ-ViT)を提案する。
論文参考訳（メタデータ） (2025-07-19T04:32:04Z)
HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations [17.975720202894905]
ポストトレーニング量子化(PTQ)は,行列演算のビット幅を削減することで,有望な解を提供する。本稿では,チャネル活性化の正規化とアダマール変換の適用により,既存手法を拡張した新しい線形変換法HadaNormを提案する。我々は,HadaNormが変圧器ブロックの様々な構成成分の量子化誤差を一貫して低減し,最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2025-06-11T16:54:34Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-02-06T13:14:52Z)
MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文参考訳（メタデータ） (2024-12-16T08:31:55Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。 DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文参考訳（メタデータ） (2024-09-12T05:18:57Z)
RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。既存のPTQメソッドは、通常、非自明な性能損失を示す。本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文参考訳（メタデータ） (2024-02-08T12:35:41Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文参考訳（メタデータ） (2023-06-06T20:28:37Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。 NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文参考訳（メタデータ） (2022-11-29T10:02:09Z)
Understanding and Overcoming the Challenges of Efficient Transformer Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文参考訳（メタデータ） (2021-09-27T10:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。