論文の概要: MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer
- arxiv url: http://arxiv.org/abs/2303.14389v2
- Date: Wed, 21 Feb 2024 15:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:34:07.007755
- Title: MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer
- Title(参考訳): MDTv2:Masked Diffusion Transformerは強力な画像合成装置
- Authors: Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan
- Abstract要約: 拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
- 参考スコア(独自算出の注目度): 158.06850125920923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its success in image synthesis, we observe that diffusion
probabilistic models (DPMs) often lack contextual reasoning ability to learn
the relations among object parts in an image, leading to a slow learning
process. To solve this issue, we propose a Masked Diffusion Transformer (MDT)
that introduces a mask latent modeling scheme to explicitly enhance the DPMs'
ability to contextual relation learning among object semantic parts in an
image. During training, MDT operates in the latent space to mask certain
tokens. Then, an asymmetric diffusion transformer is designed to predict masked
tokens from unmasked ones while maintaining the diffusion generation process.
Our MDT can reconstruct the full information of an image from its incomplete
contextual input, thus enabling it to learn the associated relations among
image tokens. We further improve MDT with a more efficient macro network
structure and training strategy, named MDTv2. Experimental results show that
MDTv2 achieves superior image synthesis performance, e.g., a new SOTA FID score
of 1.58 on the ImageNet dataset, and has more than 10x faster learning speed
than the previous SOTA DiT. The source code is released at
https://github.com/sail-sg/MDT.
- Abstract(参考訳): 画像合成の成功にもかかわらず、拡散確率モデル(dpms)は、しばしば画像内の対象部品間の関係を学習する文脈推論能力が欠如しており、学習プロセスが遅いことを観察する。
この問題を解決するために,画像中のオブジェクト意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案するMasked Diffusion Transformer (MDT)を提案する。
訓練中、MDTは特定のトークンを隠蔽するために潜伏空間で活動する。
そして、非対称拡散変換器は、拡散生成過程を維持しながら、マスク付きトークンからマスク付きトークンを予測するように設計されている。
mdtは不完全なコンテクスト入力から画像の全情報を再構築することができ、画像トークン間の関連関係を学習することができる。
MDTv2という,より効率的なマクロネットワーク構造とトレーニング戦略により,MDTをさらに改善する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
ソースコードはhttps://github.com/sail-sg/MDTで公開されている。
関連論文リスト
- MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。