論文の概要: DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images
- arxiv url: http://arxiv.org/abs/2412.18797v1
- Date: Wed, 25 Dec 2024 06:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:40.882942
- Title: DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images
- Title(参考訳): DRDM:現実的人物画像の合成のための遠方表現拡散モデル
- Authors: Enbo Huang, Yuan Zhang, Faliang Huang, Guangyu Zhang, Yang Liu,
- Abstract要約: 本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
- 参考スコア(独自算出の注目度): 9.768951663960257
- License:
- Abstract: Person image synthesis with controllable body poses and appearances is an essential task owing to the practical needs in the context of virtual try-on, image editing and video production. However, existing methods face significant challenges with details missing, limbs distortion and the garment style deviation. To address these issues, we propose a Disentangled Representations Diffusion Model (DRDM) to generate photo-realistic images from source portraits in specific desired poses and appearances. First, a pose encoder is responsible for encoding pose features into a high-dimensional space to guide the generation of person images. Second, a body-part subspace decoupling block (BSDB) disentangles features from the different body parts of a source figure and feeds them to the various layers of the noise prediction block, thereby supplying the network with rich disentangled features for generating a realistic target image. Moreover, during inference, we develop a parsing map-based disentangled classifier-free guided sampling method, which amplifies the conditional signals of texture and pose. Extensive experimental results on the Deepfashion dataset demonstrate the effectiveness of our approach in achieving pose transfer and appearance control.
- Abstract(参考訳): 仮想試行錯誤や画像編集,映像制作といった現実的なニーズから,人体写真合成が不可欠である。
しかし、既存の手法は、細部、手足の歪み、衣服スタイルのずれなど、重大な課題に直面している。
これらの課題に対処するために,特定の所望のポーズや外観のソースポートレートから写真リアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を切り離し、ノイズ予測ブロックの様々な層に供給することにより、現実的なターゲット画像を生成するためのリッチなアンタングル特徴をネットワークに供給する。
さらに、推論中に、テクスチャとポーズの条件信号を増幅するパーシングマップに基づく不整形分類器フリーガイドサンプリング法を開発した。
Deepfashionデータセットの大規模な実験結果は、ポーズ転送と外観制御の実現における我々のアプローチの有効性を示している。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis [14.50214193838818]
ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。
条件付きガイダンスとしてポーズアラインメントのテクスチャ特徴を提供するために,繰り返しポーズアライメントを提案する。
これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌跡の学習に役立ちます。
論文 参考訳(メタデータ) (2023-10-24T15:16:19Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。