Fugu-MT 論文翻訳(概要): TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers

論文の概要: TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers

arxiv url: http://arxiv.org/abs/2502.04056v1
Date: Thu, 06 Feb 2025 13:14:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.768492
Title: TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers
Title（参考訳）: TQ-DiT:拡散変換器の効率的な時間認識量子化
Authors: Younghye Hwang, Hyojin Lee, Joonhyuk Kang,
Abstract要約: モデルの量子化は、より低い精度で重みとアクティベーション値を表す。時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
参考スコア（独自算出の注目度）: 3.389132862174821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion transformers (DiTs) combine transformer architectures with diffusion models. However, their computational complexity imposes significant limitations on real-time applications and sustainability of AI systems. In this study, we aim to enhance the computational efficiency through model quantization, which represents the weights and activation values with lower precision. Multi-region quantization (MRQ) is introduced to address the asymmetric distribution of network values in DiT blocks by allocating two scaling parameters to sub-regions. Additionally, time-grouping quantization (TGQ) is proposed to reduce quantization error caused by temporal variation in activations. The experimental results show that the proposed algorithm achieves performance comparable to the original full-precision model with only a 0.29 increase in FID at W8A8. Furthermore, it outperforms other baselines at W6A6, thereby confirming its suitability for low-bit quantization. These results highlight the potential of our method to enable efficient real-time generative models.
Abstract（参考訳）: 拡散変圧器(DiT)は、変圧器アーキテクチャと拡散モデルを組み合わせたものである。しかし、その計算複雑性は、リアルタイムアプリケーションとAIシステムの持続可能性に重大な制限を課している。本研究では,より精度の低い重みと活性化値を表すモデル量子化による計算効率の向上を目指す。マルチリージョン量子化(MRQ)は、2つのスケーリングパラメータをサブリージョンに割り当てることで、DiTブロック内のネットワーク値の非対称分布に対処するために導入された。さらに、アクティベーションの時間的変動に起因する量子化誤差を低減するために、時間グループ量子化(TGQ)を提案する。実験の結果,提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を達成した。さらに、W6A6で他のベースラインよりも優れており、低ビット量子化に適していることが確認できる。これらの結果は,効率的なリアルタイム生成モデルを実現するための手法の可能性を強調した。

関連論文リスト

Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping [36.012101195384744]
Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。 DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-10T05:21:04Z)
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-12-21T16:57:54Z)
DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。 DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文参考訳（メタデータ） (2024-09-12T05:18:57Z)
Adaptive variational quantum dynamics simulations with compressed circuits and fewer measurements [4.2643127089535104]
AVQDS(T)と呼ばれる適応変分量子力学シミュレーション(AVQDS)法の改良版を示す。このアルゴリズムは、変分力学の精度の尺度であるマクラクラン距離を一定しきい値以下に保つために、アンザッツ回路に不連結なユニタリゲートの層を適応的に加算する。また、雑音耐性を増強した変動パラメータに対する線形運動方程式を解くために、固有値トランケーションに基づく手法を示す。
論文参考訳（メタデータ） (2024-08-13T02:56:43Z)
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。 DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文参考訳（メタデータ） (2024-06-25T07:57:27Z)
PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。 PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文参考訳（メタデータ） (2024-05-25T02:02:08Z)
PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。 PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-03-29T18:23:34Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。