Fugu-MT 論文翻訳(概要): DiffiT: Diffusion Vision Transformers for Image Generation

論文の概要: DiffiT: Diffusion Vision Transformers for Image Generation

arxiv url: http://arxiv.org/abs/2312.02139v1
Date: Mon, 4 Dec 2023 18:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 14:08:37.409461
Title: DiffiT: Diffusion Vision Transformers for Image Generation
Title（参考訳）: DiffiT:画像生成のための拡散ビジョン変換器
Authors: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
Abstract要約: Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。 DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
参考スコア（独自算出の注目度）: 94.50195596375316
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
Abstract（参考訳）: 強力な表現力と高いサンプル品質を持つ拡散モデルは、様々な領域における多くの新しい応用とユースケースを可能にした。サンプル生成では、これらのモデルは反復的なデノージングによって画像を生成するデノージングニューラルネットワークに依存している。しかし、ネットワークアーキテクチャのデノベーションの役割は、畳み込み残高のU-Netに依存する多くの取り組みによってよく研究されていない。本稿では,拡散型生成学習における視覚トランスフォーマーの有効性について検討する。具体的には、U字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャからなるDiffiT(Diffusion Vision Transformers)と呼ばれる新しいモデルを提案する。我々は,注目層が認知過程の異なる段階における行動に効率的に適応できる,時間依存型自己注意モジュールを新たに導入する。また,高解像度画像生成のための自己アテンション層を用いたトランスフォーマーモデルである潜在DiffiTを導入する。以上の結果から,DiffiTは高忠実度画像を生成するのに驚くほど有効であり,様々なクラス条件および非条件合成タスクにおいて,最先端(SOTA)ベンチマークを達成できることがわかった。潜在領域では、DiffiTはImageNet-256データセットで1.73のSOTA FIDスコアを達成した。 Repository: https://github.com/NVlabs/DiffiT

関連論文リスト

OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文参考訳（メタデータ） (2024-05-23T17:57:24Z)
TFormer: A Transmission-Friendly ViT Model for IoT Devices [23.67389080796814]
本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。 ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-15T15:36:10Z)
Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。本稿では,画像の高周波成分を直接補うHATを提案する。 HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文参考訳（メタデータ） (2022-04-03T05:16:51Z)
Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文参考訳（メタデータ） (2021-07-03T08:28:34Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。