論文の概要: Person Image Synthesis via Denoising Diffusion Model
- arxiv url: http://arxiv.org/abs/2211.12500v1
- Date: Tue, 22 Nov 2022 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:36:09.391796
- Title: Person Image Synthesis via Denoising Diffusion Model
- Title(参考訳): 雑音拡散モデルによる人物画像合成
- Authors: Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer,
Jorma Laaksonen, Mubarak Shah, Fahad Shahbaz Khan
- Abstract要約: 本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
- 参考スコア(独自算出の注目度): 116.34633988927429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pose-guided person image generation task requires synthesizing
photorealistic images of humans in arbitrary poses. The existing approaches use
generative adversarial networks that do not necessarily maintain realistic
textures or need dense correspondences that struggle to handle complex
deformations and severe occlusions. In this work, we show how denoising
diffusion models can be applied for high-fidelity person image synthesis with
strong sample diversity and enhanced mode coverage of the learnt data
distribution. Our proposed Person Image Diffusion Model (PIDM) disintegrates
the complex transfer problem into a series of simpler forward-backward
denoising steps. This helps in learning plausible source-to-target
transformation trajectories that result in faithful textures and undistorted
appearance details. We introduce a 'texture diffusion module' based on
cross-attention to accurately model the correspondences between appearance and
pose information available in source and target images. Further, we propose
'disentangled classifier-free guidance' to ensure close resemblance between the
conditional inputs and the synthesized output in terms of both pose and
appearance information. Our extensive results on two large-scale benchmarks and
a user study demonstrate the photorealism of our proposed approach under
challenging scenarios. We also show how our generated images can help in
downstream tasks. Our code and models will be publicly released.
- Abstract(参考訳): ポーズ誘導型人物画像生成タスクでは、任意のポーズで人間のフォトリアリスティック画像を合成する必要がある。
既存のアプローチでは、現実的なテクスチャを維持する必要はなく、複雑な変形や重度の咬合に対処するのに苦労する密接な対応を必要とする生成的逆境ネットワークを使用している。
本稿では,サンプルの多様性と学習データ分布のモード被覆の強化により,高忠実度人物画像合成に分散モデルをどのように適用できるかを示す。
提案するPerson Image Diffusion Model (PIDM) は, 複雑な転送問題を, より単純な前方退行ステップに分解する。
これは、忠実なテクスチャと非歪な外観の詳細をもたらす、妥当なソースからターゲットへの変換軌道の学習に役立つ。
本稿では,情報ソースとターゲット画像における外観とポーズの対応を正確にモデル化する「テクスチャ拡散モジュール」を提案する。
さらに,条件入力と合成出力との密接な類似性を確保するために,ポーズ情報と外観情報の両方の観点から「不連続分類器フリーガイダンス」を提案する。
2つの大規模ベンチマークとユーザ調査の結果から,提案手法のフォトリアリズムを課題シナリオで実証した。
また、生成したイメージがダウンストリームタスクにどのように役立つかを示します。
私たちのコードとモデルは公開されます。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。