論文の概要: DiffiT: Diffusion Vision Transformers for Image Generation
- arxiv url: http://arxiv.org/abs/2312.02139v1
- Date: Mon, 4 Dec 2023 18:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:08:37.409461
- Title: DiffiT: Diffusion Vision Transformers for Image Generation
- Title(参考訳): DiffiT:画像生成のための拡散ビジョン変換器
- Authors: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
- Abstract要約: Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
- 参考スコア(独自算出の注目度): 94.50195596375316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
- Abstract(参考訳): 強力な表現力と高いサンプル品質を持つ拡散モデルは、様々な領域における多くの新しい応用とユースケースを可能にした。
サンプル生成では、これらのモデルは反復的なデノージングによって画像を生成するデノージングニューラルネットワークに依存している。
しかし、ネットワークアーキテクチャのデノベーションの役割は、畳み込み残高のU-Netに依存する多くの取り組みによってよく研究されていない。
本稿では,拡散型生成学習における視覚トランスフォーマーの有効性について検討する。
具体的には、U字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャからなるDiffiT(Diffusion Vision Transformers)と呼ばれる新しいモデルを提案する。
我々は,注目層が認知過程の異なる段階における行動に効率的に適応できる,時間依存型自己注意モジュールを新たに導入する。
また,高解像度画像生成のための自己アテンション層を用いたトランスフォーマーモデルである潜在DiffiTを導入する。
以上の結果から,DiffiTは高忠実度画像を生成するのに驚くほど有効であり,様々なクラス条件および非条件合成タスクにおいて,最先端(SOTA)ベンチマークを達成できることがわかった。
潜在領域では、DiffiTはImageNet-256データセットで1.73のSOTA FIDスコアを達成した。
Repository: https://github.com/NVlabs/DiffiT
関連論文リスト
- Denoising Autoregressive Representation Learning [14.819256445166523]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - ViT-DAE: Transformer-driven Diffusion Autoencoder for Histopathology
Image Analysis [4.724009208755395]
高品質な病理画像合成のための視覚変換器(ViT)と拡散オートエンコーダを統合したViT-DAEを提案する。
提案手法は, 実写画像生成におけるGAN法とバニラDAE法より優れている。
論文 参考訳(メタデータ) (2023-04-03T15:00:06Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Dense residual Transformer for image denoising [7.232516946005627]
ノイズフリーで高品質な画像をノイズの多い画像から再構成することを目的とした,低レベルのコンピュータビジョンタスクである。
本稿では,DenSformer という名前の Transformer に基づく画像記述型ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2022-05-14T01:59:38Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。