論文の概要: TerDiT: Ternary Diffusion Models with Transformers
- arxiv url: http://arxiv.org/abs/2405.14854v1
- Date: Thu, 23 May 2024 17:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:27:25.683703
- Title: TerDiT: Ternary Diffusion Models with Transformers
- Title(参考訳): TerDiT:変圧器を用いた3次拡散モデル
- Authors: Xudong Lu, Aojun Zhou, Ziyi Lin, Qi Liu, Yuhui Xu, Renrui Zhang, Yafei Wen, Shuai Ren, Peng Gao, Junchi Yan, Hongsheng Li,
- Abstract要約: TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
- 参考スコア(独自算出の注目度): 83.94829676057692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in large-scale pre-trained text-to-image diffusion models have significantly improved the generation of high-fidelity images, particularly with the emergence of diffusion models based on transformer architecture (DiTs). Among these diffusion models, diffusion transformers have demonstrated superior image generation capabilities, boosting lower FID scores and higher scalability. However, deploying large-scale DiT models can be expensive due to their extensive parameter numbers. Although existing research has explored efficient deployment techniques for diffusion models such as model quantization, there is still little work concerning DiT-based models. To tackle this research gap, in this paper, we propose TerDiT, a quantization-aware training (QAT) and efficient deployment scheme for ternary diffusion models with transformers. We focus on the ternarization of DiT networks and scale model sizes from 600M to 4.2B. Our work contributes to the exploration of efficient deployment strategies for large-scale DiT models, demonstrating the feasibility of training extremely low-bit diffusion transformer models from scratch while maintaining competitive image generation capacities compared to full-precision models. Code will be available at https://github.com/Lucky-Lance/TerDiT.
- Abstract(参考訳): 大規模な事前訓練されたテキスト・画像拡散モデルにおける最近の進歩は、特にトランスフォーマーアーキテクチャ(DiT)に基づく拡散モデルの出現により、高忠実度画像の生成を著しく改善している。
これらの拡散モデルの中で、拡散変換器は優れた画像生成能力を示し、FIDスコアが低くなり、スケーラビリティが向上した。
しかし、大規模なDiTモデルのデプロイは、パラメータ数が広いため、コストがかかる可能性がある。
モデル量子化のような拡散モデルの効率的な展開手法を研究してきたが、DiTモデルに関する研究はほとんどない。
本稿では, 変圧器を用いた3次拡散モデルのための量子化対応トレーニング(QAT)と効率的な配置方式である TerDiT を提案する。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
本研究は、大規模DiTモデルの効率的な展開戦略の探索に寄与し、フル精度モデルと比較して画像生成能力の競争力を維持しつつ、極低ビット拡散変圧器モデルをスクラッチから訓練することが可能であることを示す。
コードはhttps://github.com/Lucky-Lance/TerDiT.comで入手できる。
関連論文リスト
- DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Scalable Diffusion Models with Transformers [18.903245758902834]
画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。
変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
論文 参考訳(メタデータ) (2022-12-19T18:59:58Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。