論文の概要: Multi-focal Conditioned Latent Diffusion for Person Image Synthesis
- arxiv url: http://arxiv.org/abs/2503.15686v2
- Date: Sun, 23 Mar 2025 23:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 11:09:48.561092
- Title: Multi-focal Conditioned Latent Diffusion for Person Image Synthesis
- Title(参考訳): 人物画像合成のための多焦点条件潜時拡散
- Authors: Jiaqi Liu, Jichao Zhang, Paolo Rota, Nicu Sebe,
- Abstract要約: 遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
- 参考スコア(独自算出の注目度): 59.113899155476005
- License:
- Abstract: The Latent Diffusion Model (LDM) has demonstrated strong capabilities in high-resolution image generation and has been widely employed for Pose-Guided Person Image Synthesis (PGPIS), yielding promising results. However, the compression process of LDM often results in the deterioration of details, particularly in sensitive areas such as facial features and clothing textures. In this paper, we propose a Multi-focal Conditioned Latent Diffusion (MCLD) method to address these limitations by conditioning the model on disentangled, pose-invariant features from these sensitive regions. Our approach utilizes a multi-focal condition aggregation module, which effectively integrates facial identity and texture-specific information, enhancing the model's ability to produce appearance realistic and identity-consistent images. Our method demonstrates consistent identity and appearance generation on the DeepFashion dataset and enables flexible person image editing due to its generation consistency. The code is available at https://github.com/jqliu09/mcld.
- Abstract(参考訳): The Latent Diffusion Model (LDM) has demonstrated strong capabilities in high- resolution image generation and have been widely use for Pose-Guided Person Image Synthesis (PGPIS)。
しかし, LDMの圧縮処理は, 特に顔の特徴や衣服のテクスチャといった繊細な領域において, 細部が劣化することが多い。
本稿では,これらの感性領域の非交叉・ポーズ不変の特徴をモデルに条件付けすることで,これらの制約に対処する多焦点条件付き潜時拡散法を提案する。
提案手法では,顔の識別とテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを用いて,現実的かつ同一性に富んだ画像を生成するモデルの能力を向上する。
提案手法は,DeepFashionデータセット上で一貫したアイデンティティと外観生成を示し,その生成一貫性によるフレキシブルな人物画像編集を可能にする。
コードはhttps://github.com/jqliu09/mcld.comから入手できる。
関連論文リスト
- DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images [9.768951663960257]
本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
論文 参考訳(メタデータ) (2024-12-25T06:36:24Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Conditioning Diffusion Models via Attributes and Semantic Masks for Face
Generation [1.104121146441257]
深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。
GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、それでも出力を多様化する能力は欠けていた。
本稿では,属性とセマンティックマスクの両方を利用した多条件拡散モデルの提案を行い,高品質で制御可能な顔画像を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:16:37Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。