Fugu-MT 論文翻訳(概要): TerDiT: Ternary Diffusion Models with Transformers

論文の概要: TerDiT: Ternary Diffusion Models with Transformers

arxiv url: http://arxiv.org/abs/2405.14854v1
Date: Thu, 23 May 2024 17:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 13:27:25.683703
Title: TerDiT: Ternary Diffusion Models with Transformers
Title（参考訳）: TerDiT:変圧器を用いた3次拡散モデル
Authors: Xudong Lu, Aojun Zhou, Ziyi Lin, Qi Liu, Yuhui Xu, Renrui Zhang, Yafei Wen, Shuai Ren, Peng Gao, Junchi Yan, Hongsheng Li,
Abstract要約: TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
参考スコア（独自算出の注目度）: 83.94829676057692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in large-scale pre-trained text-to-image diffusion models have significantly improved the generation of high-fidelity images, particularly with the emergence of diffusion models based on transformer architecture (DiTs). Among these diffusion models, diffusion transformers have demonstrated superior image generation capabilities, boosting lower FID scores and higher scalability. However, deploying large-scale DiT models can be expensive due to their extensive parameter numbers. Although existing research has explored efficient deployment techniques for diffusion models such as model quantization, there is still little work concerning DiT-based models. To tackle this research gap, in this paper, we propose TerDiT, a quantization-aware training (QAT) and efficient deployment scheme for ternary diffusion models with transformers. We focus on the ternarization of DiT networks and scale model sizes from 600M to 4.2B. Our work contributes to the exploration of efficient deployment strategies for large-scale DiT models, demonstrating the feasibility of training extremely low-bit diffusion transformer models from scratch while maintaining competitive image generation capacities compared to full-precision models. Code will be available at https://github.com/Lucky-Lance/TerDiT.
Abstract（参考訳）: 大規模な事前訓練されたテキスト・画像拡散モデルにおける最近の進歩は、特にトランスフォーマーアーキテクチャ(DiT)に基づく拡散モデルの出現により、高忠実度画像の生成を著しく改善している。これらの拡散モデルの中で、拡散変換器は優れた画像生成能力を示し、FIDスコアが低くなり、スケーラビリティが向上した。しかし、大規模なDiTモデルのデプロイは、パラメータ数が広いため、コストがかかる可能性がある。モデル量子化のような拡散モデルの効率的な展開手法を研究してきたが、DiTモデルに関する研究はほとんどない。本稿では, 変圧器を用いた3次拡散モデルのための量子化対応トレーニング(QAT)と効率的な配置方式である TerDiT を提案する。我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。本研究は、大規模DiTモデルの効率的な展開戦略の探索に寄与し、フル精度モデルと比較して画像生成能力の競争力を維持しつつ、極低ビット拡散変圧器モデルをスクラッチから訓練することが可能であることを示す。コードはhttps://github.com/Lucky-Lance/TerDiT.comで入手できる。

関連論文リスト

Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。 DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-15T17:55:43Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文参考訳（メタデータ） (2023-06-20T08:02:59Z)
Scalable Diffusion Models with Transformers [18.903245758902834]
画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
論文参考訳（メタデータ） (2022-12-19T18:59:58Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文参考訳（メタデータ） (2021-05-30T17:14:52Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。