論文の概要: Cross-view Masked Diffusion Transformers for Person Image Synthesis
- arxiv url: http://arxiv.org/abs/2402.01516v1
- Date: Fri, 2 Feb 2024 15:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:26:34.466345
- Title: Cross-view Masked Diffusion Transformers for Person Image Synthesis
- Title(参考訳): 人物画像合成のためのクロスビューマスク拡散トランス
- Authors: Trung X. Pham, Zhang Kang, Chang D. Yoo
- Abstract要約: X-MDPT (Cross-view Masked Diffusion Prediction Transformer)
ポーズ誘導型画像生成のための新しい拡散モデルを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
- 参考スコア(独自算出の注目度): 23.874327202264553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present X-MDPT (Cross-view Masked Diffusion Prediction Transformers), a
novel diffusion model designed for pose-guided human image generation. X-MDPT
distinguishes itself by employing masked diffusion transformers that operate on
latent patches, a departure from the commonly-used Unet structures in existing
works. The model comprises three key modules: 1) a denoising diffusion
Transformer, 2) an aggregation network that consolidates conditions into a
single vector for the diffusion process, and 3) a mask cross-prediction module
that enhances representation learning with semantic information from the
reference image. X-MDPT demonstrates scalability, improving FID, SSIM, and
LPIPS with larger models. Despite its simple design, our model outperforms
state-of-the-art approaches on the DeepFashion dataset while exhibiting
efficiency in terms of training parameters, training time, and inference speed.
Our compact 33MB model achieves an FID of 7.42, surpassing a prior Unet latent
diffusion approach (FID 8.07) using only $11\times$ fewer parameters. Our best
model surpasses the pixel-based diffusion with $\frac{2}{3}$ of the parameters
and achieves $5.43 \times$ faster inference.
- Abstract(参考訳): X-MDPT (Cross-view Masked Diffusion Prediction Transformers) は,ポーズ誘導型画像生成のための新しい拡散モデルである。
x-mdpt は潜伏パッチで動作するマスク拡散変圧器を採用しており、既存の作品で一般的に使用されている unet 構造から逸脱している。
モデルは3つの主要なモジュールから構成される。
1) 拡散変圧器
2)拡散過程の条件を1つのベクトルに集約する集約ネットワーク、
3)参照画像からの意味情報による表現学習を強化するマスククロス予測モジュール。
X-MDPTは拡張性を示し、より大きなモデルでFID、SSIM、LPIPSを改善している。
そのシンプルな設計にもかかわらず、我々のモデルはDeepFashionデータセットの最先端のアプローチよりも優れており、トレーニングパラメータ、トレーニング時間、推論速度の点で効率が良い。
我々のコンパクト33MBモデルは7.42のFIDを達成し、Unet遅延拡散法(FID 8.07)をはるかに上回っている。
我々の最良のモデルは、パラメータの$\frac{2}{3}$でピクセルベースの拡散を超え、5.43 \times$高速推論を達成する。
関連論文リスト
- Denoising Autoregressive Representation Learning [14.819256445166523]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Taming Latent Diffusion Models to See in the Dark [65.6004750218506]
LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
入力されたRAW画像に2次元離散ウェーブレット変換を適用し、LLIEタスクを低周波コンテンツ生成と高周波ディテールメンテナンスという2つの重要な部分に分割する。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - DiffGANPaint: Fast Inpainting Using Denoising Diffusion GANs [19.690288425689328]
本稿では,不足画素を高速に充填できるDDPMモデルを提案する。
汎用画像インパインティングデータセットの実験は、我々のアプローチが現代のほとんどの作品に匹敵する、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:50:41Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Modulating Pretrained Diffusion Models for Multimodal Image Synthesis [42.06870552390612]
マルチモーダルコンディショニングモジュール(MCM)は、サンプリング中に拡散ネットワークの予測を変調するために訓練される。
MCMは、画像の空間的レイアウトに対するユーザ制御を可能にし、画像生成プロセスに対するコントロールを増大させる。
論文 参考訳(メタデータ) (2023-02-24T17:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。