論文の概要: Cross-view Masked Diffusion Transformers for Person Image Synthesis
- arxiv url: http://arxiv.org/abs/2402.01516v1
- Date: Fri, 2 Feb 2024 15:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:26:34.466345
- Title: Cross-view Masked Diffusion Transformers for Person Image Synthesis
- Title(参考訳): 人物画像合成のためのクロスビューマスク拡散トランス
- Authors: Trung X. Pham, Zhang Kang, Chang D. Yoo
- Abstract要約: X-MDPT (Cross-view Masked Diffusion Prediction Transformer)
ポーズ誘導型画像生成のための新しい拡散モデルを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
- 参考スコア(独自算出の注目度): 23.874327202264553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present X-MDPT (Cross-view Masked Diffusion Prediction Transformers), a
novel diffusion model designed for pose-guided human image generation. X-MDPT
distinguishes itself by employing masked diffusion transformers that operate on
latent patches, a departure from the commonly-used Unet structures in existing
works. The model comprises three key modules: 1) a denoising diffusion
Transformer, 2) an aggregation network that consolidates conditions into a
single vector for the diffusion process, and 3) a mask cross-prediction module
that enhances representation learning with semantic information from the
reference image. X-MDPT demonstrates scalability, improving FID, SSIM, and
LPIPS with larger models. Despite its simple design, our model outperforms
state-of-the-art approaches on the DeepFashion dataset while exhibiting
efficiency in terms of training parameters, training time, and inference speed.
Our compact 33MB model achieves an FID of 7.42, surpassing a prior Unet latent
diffusion approach (FID 8.07) using only $11\times$ fewer parameters. Our best
model surpasses the pixel-based diffusion with $\frac{2}{3}$ of the parameters
and achieves $5.43 \times$ faster inference.
- Abstract(参考訳): X-MDPT (Cross-view Masked Diffusion Prediction Transformers) は,ポーズ誘導型画像生成のための新しい拡散モデルである。
x-mdpt は潜伏パッチで動作するマスク拡散変圧器を採用しており、既存の作品で一般的に使用されている unet 構造から逸脱している。
モデルは3つの主要なモジュールから構成される。
1) 拡散変圧器
2)拡散過程の条件を1つのベクトルに集約する集約ネットワーク、
3)参照画像からの意味情報による表現学習を強化するマスククロス予測モジュール。
X-MDPTは拡張性を示し、より大きなモデルでFID、SSIM、LPIPSを改善している。
そのシンプルな設計にもかかわらず、我々のモデルはDeepFashionデータセットの最先端のアプローチよりも優れており、トレーニングパラメータ、トレーニング時間、推論速度の点で効率が良い。
我々のコンパクト33MBモデルは7.42のFIDを達成し、Unet遅延拡散法(FID 8.07)をはるかに上回っている。
我々の最良のモデルは、パラメータの$\frac{2}{3}$でピクセルベースの拡散を超え、5.43 \times$高速推論を達成する。
関連論文リスト
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
現状のトランスフォーマーに基づく拡散モデルを用いて行った4つのデータセット実験により,FIDを平均1.5だけ増加させながらMACを50ドル削減できることが実証された。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - I$^2$SB: Image-to-Image Schr\"odinger Bridge [87.43524087956457]
Image-to-Image Schr"odinger Bridge (I$2$SB) は条件拡散モデルの新しいクラスである。
I$2$SB は、2つの与えられた分布間の非線形拡散過程を直接学習する。
I$2$SBは、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
論文 参考訳(メタデータ) (2023-02-12T08:35:39Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。