論文の概要: Advancing Pose-Guided Image Synthesis with Progressive Conditional
Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.06313v3
- Date: Wed, 13 Mar 2024 07:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:27:57.927627
- Title: Advancing Pose-Guided Image Synthesis with Progressive Conditional
Diffusion Models
- Title(参考訳): プログレッシブ条件によるポーズガイド画像合成の高速化
拡散モデル
- Authors: Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, Wei Yang
- Abstract要約: 本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
- 参考スコア(独自算出の注目度): 13.795706255966259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has showcased the significant potential of diffusion models in
pose-guided person image synthesis. However, owing to the inconsistency in pose
between the source and target images, synthesizing an image with a distinct
pose, relying exclusively on the source image and target pose information,
remains a formidable challenge. This paper presents Progressive Conditional
Diffusion Models (PCDMs) that incrementally bridge the gap between person
images under the target and source poses through three stages. Specifically, in
the first stage, we design a simple prior conditional diffusion model that
predicts the global features of the target image by mining the global alignment
relationship between pose coordinates and image appearance. Then, the second
stage establishes a dense correspondence between the source and target images
using the global features from the previous stage, and an inpainting
conditional diffusion model is proposed to further align and enhance the
contextual features, generating a coarse-grained person image. In the third
stage, we propose a refining conditional diffusion model to utilize the
coarsely generated image from the previous stage as a condition, achieving
texture restoration and enhancing fine-detail consistency. The three-stage
PCDMs work progressively to generate the final high-quality and high-fidelity
synthesized image. Both qualitative and quantitative results demonstrate the
consistency and photorealism of our proposed PCDMs under challenging
scenarios.The code and model will be available at
https://github.com/tencent-ailab/PCDMs.
- Abstract(参考訳): 近年の研究では、ポーズ誘導人物画像合成における拡散モデルの有意な可能性を示している。
しかし、ソースイメージとターゲットイメージ間のポーズの不整合のため、ソースイメージとターゲットポーズ情報にのみ依存して、異なるポーズでイメージを合成することは深刻な課題である。
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
具体的には、第1段階では、ポーズ座標と画像外観のグローバルアライメント関係をマイニングすることにより、ターゲット画像のグローバルな特徴を予測できる単純な事前条件拡散モデルを設計する。
そこで,第2段では,前段のグローバルな特徴を用いたソース画像とターゲット画像との密接な対応性を確立し,さらにコンテキスト特性の整合と拡張を図り,粗い人物画像を生成するインパインティング条件拡散モデルを提案する。
第3段階では,前段からの粗い生成画像を条件として利用する精製条件拡散モデルを提案し,テクスチャ復元を実現し,細部整合性を向上させる。
3段階のPCDMは、最終的な高品質で高忠実な合成画像を生成するために、徐々に機能する。
定性的かつ定量的な結果は、挑戦的なシナリオ下で提案したPCDMの一貫性とフォトリアリズムを示し、コードとモデルはhttps://github.com/tencent-ailab/PCDMsで利用可能である。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [70.58988592832684]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar
Creation [15.089560253798924]
本研究の目的は、制御可能で光現実的な人間のアバターを作成するために、生成拡散モデルの品質と機能を向上させることである。
我々は,3次元形態素モデルを最先端の多視点連続拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - High-fidelity Person-centric Subject-to-Image Synthesis [15.059651360660073]
Face-diffuserは、上記のトレーニングの不均衡と品質の妥協を取り除くための効果的な協調生成パイプラインである。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
新規かつ高能率なノイズ融合(Saliency-Adaptive Noise Fusion)によって達成された,主題・場面の融合段階である。
論文 参考訳(メタデータ) (2023-11-17T05:03:53Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion [117.95224531331142]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。