論文の概要: DiffiT: Diffusion Vision Transformers for Image Generation
- arxiv url: http://arxiv.org/abs/2312.02139v1
- Date: Mon, 4 Dec 2023 18:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:08:37.409461
- Title: DiffiT: Diffusion Vision Transformers for Image Generation
- Title(参考訳): DiffiT:画像生成のための拡散ビジョン変換器
- Authors: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
- Abstract要約: Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
- 参考スコア(独自算出の注目度): 94.50195596375316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
- Abstract(参考訳): 強力な表現力と高いサンプル品質を持つ拡散モデルは、様々な領域における多くの新しい応用とユースケースを可能にした。
サンプル生成では、これらのモデルは反復的なデノージングによって画像を生成するデノージングニューラルネットワークに依存している。
しかし、ネットワークアーキテクチャのデノベーションの役割は、畳み込み残高のU-Netに依存する多くの取り組みによってよく研究されていない。
本稿では,拡散型生成学習における視覚トランスフォーマーの有効性について検討する。
具体的には、U字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャからなるDiffiT(Diffusion Vision Transformers)と呼ばれる新しいモデルを提案する。
我々は,注目層が認知過程の異なる段階における行動に効率的に適応できる,時間依存型自己注意モジュールを新たに導入する。
また,高解像度画像生成のための自己アテンション層を用いたトランスフォーマーモデルである潜在DiffiTを導入する。
以上の結果から,DiffiTは高忠実度画像を生成するのに驚くほど有効であり,様々なクラス条件および非条件合成タスクにおいて,最先端(SOTA)ベンチマークを達成できることがわかった。
潜在領域では、DiffiTはImageNet-256データセットで1.73のSOTA FIDスコアを達成した。
Repository: https://github.com/NVlabs/DiffiT
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - TFormer: A Transmission-Friendly ViT Model for IoT Devices [23.67389080796814]
本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。
ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-15T15:36:10Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。