論文の概要: DiffiT: Diffusion Vision Transformers for Image Generation
- arxiv url: http://arxiv.org/abs/2312.02139v2
- Date: Mon, 1 Apr 2024 18:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:03:39.741313
- Title: DiffiT: Diffusion Vision Transformers for Image Generation
- Title(参考訳): DiffiT:画像生成のための拡散ビジョン変換器
- Authors: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat,
- Abstract要約: ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
- 参考スコア(独自算出の注目度): 88.08529836125399
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models with their powerful expressivity and high sample quality have achieved State-Of-The-Art (SOTA) performance in the generative domain. The pioneering Vision Transformer (ViT) has also demonstrated strong modeling capabilities and scalability, especially for recognition tasks. In this paper, we study the effectiveness of ViTs in diffusion-based generative learning and propose a new model denoted as Diffusion Vision Transformers (DiffiT). Specifically, we propose a methodology for finegrained control of the denoising process and introduce the Time-dependant Multihead Self Attention (TMSA) mechanism. DiffiT is surprisingly effective in generating high-fidelity images with significantly better parameter efficiency. We also propose latent and image space DiffiT models and show SOTA performance on a variety of class-conditional and unconditional synthesis tasks at different resolutions. The Latent DiffiT model achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset while having 19.85%, 16.88% less parameters than other Transformer-based diffusion models such as MDT and DiT, respectively. Code: https://github.com/NVlabs/DiffiT
- Abstract(参考訳): 高い発現率と高い試料品質を持つ拡散モデルにより, 生成領域における状態-Of-The-Art (SOTA) の性能が向上した。
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
本稿では,拡散型生成学習におけるViTの有効性について検討し,拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
具体的には,認知過程のきめ細かい制御手法を提案し,時間依存型マルチヘッド自己注意(TMSA)機構を導入する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
また,遅延および画像空間DiffiTモデルを提案し,様々なクラス条件および非条件合成タスクに対して,異なる解像度でSOTA性能を示す。
Latent DiffiTモデルでは、ImageNet-256データセットで新しいSOTA FIDスコアが1.73で、それぞれ19.85%、16.88%のパラメータがMDTやDiTのような他のトランスフォーマーベースの拡散モデルよりも小さい。
コード:https://github.com/NVlabs/DiffiT
関連論文リスト
- StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - TFormer: A Transmission-Friendly ViT Model for IoT Devices [23.67389080796814]
本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。
ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-15T15:36:10Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。