論文の概要: Masked Diffusion Transformer is a Strong Image Synthesizer
- arxiv url: http://arxiv.org/abs/2303.14389v1
- Date: Sat, 25 Mar 2023 07:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:00:54.090942
- Title: Masked Diffusion Transformer is a Strong Image Synthesizer
- Title(参考訳): マスク拡散トランスは強いイメージシンセサイザーである
- Authors: Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan
- Abstract要約: 拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
本研究では,DPMの文脈的関係学習能力を高めるマスク潜時モデリング手法を導入するMasked Diffusion Transformer (MDT)を提案する。
実験の結果,MDT は ImageNet データセットの新たな SoTA FID スコアなどの画像合成性能に優れており,従来の SoTA DiT よりも3倍高速であることがわかった。
- 参考スコア(独自算出の注目度): 193.78876000005366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its success in image synthesis, we observe that diffusion
probabilistic models (DPMs) often lack contextual reasoning ability to learn
the relations among object parts in an image, leading to a slow learning
process. To solve this issue, we propose a Masked Diffusion Transformer (MDT)
that introduces a mask latent modeling scheme to explicitly enhance the DPMs'
ability of contextual relation learning among object semantic parts in an
image. During training, MDT operates on the latent space to mask certain
tokens. Then, an asymmetric masking diffusion transformer is designed to
predict masked tokens from unmasked ones while maintaining the diffusion
generation process. Our MDT can reconstruct the full information of an image
from its incomplete contextual input, thus enabling it to learn the associated
relations among image tokens. Experimental results show that MDT achieves
superior image synthesis performance, e.g. a new SoTA FID score on the ImageNet
dataset, and has about 3x faster learning speed than the previous SoTA DiT. The
source code is released at https://github.com/sail-sg/MDT.
- Abstract(参考訳): 画像合成の成功にもかかわらず、拡散確率モデル(dpms)は、しばしば画像内の対象部品間の関係を学習する文脈推論能力が欠如しており、学習プロセスが遅いことを観察する。
この問題を解決するために,画像中のオブジェクトの意味的部分間の文脈的関係学習能力を明確に向上させるマスク潜在モデリング手法を提案するMasked Diffusion Transformer (MDT)を提案する。
トレーニング中、MDTは特定のトークンを隠蔽するために潜在空間で動作する。
そして、非対称マスキング拡散変換器を、拡散生成過程を維持しつつ、マスク付きトークンからマスク付きトークンを予測するように設計されている。
mdtは不完全なコンテクスト入力から画像の全情報を再構築することができ、画像トークン間の関連関係を学習することができる。
実験の結果,MDT は ImageNet データセットの新たな SoTA FID スコアなどの画像合成性能に優れており,従来の SoTA DiT よりも3倍高速であることがわかった。
ソースコードはhttps://github.com/sail-sg/MDTで公開されている。
関連論文リスト
- MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。