論文の概要: TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer
- arxiv url: http://arxiv.org/abs/2502.03426v1
- Date: Wed, 05 Feb 2025 18:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:38.051828
- Title: TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer
- Title(参考訳): TruePose:フルID保存ポッド転送のためのヒューマンパーシング誘導アテンション拡散
- Authors: Zhihong Xu, Dongxia Wang, Peng Du, Yang Cao, Qing Guo,
- Abstract要約: Pose-Guided Person Image Synthesis (PGPIS)は、特定のターゲットポーズ(例えば骨格)を採用しながら、被験者のアイデンティティをソースイメージから保持する画像を生成する。
拡散に基づくPGPIS法は、ポーズ変換中に顔の特徴を効果的に保存するが、拡散過程を通して元の画像から衣服の詳細を正確に保持するのに苦慮することが多い。
本研究では, 顔と衣服の外観を効果的に保ちながら, 高品質な結果をもたらす新しいアプローチである, パーシング誘導型注意拡散法を提案する。
- 参考スコア(独自算出の注目度): 13.102445153051082
- License:
- Abstract: Pose-Guided Person Image Synthesis (PGPIS) generates images that maintain a subject's identity from a source image while adopting a specified target pose (e.g., skeleton). While diffusion-based PGPIS methods effectively preserve facial features during pose transformation, they often struggle to accurately maintain clothing details from the source image throughout the diffusion process. This limitation becomes particularly problematic when there is a substantial difference between the source and target poses, significantly impacting PGPIS applications in the fashion industry where clothing style preservation is crucial for copyright protection. Our analysis reveals that this limitation primarily stems from the conditional diffusion model's attention modules failing to adequately capture and preserve clothing patterns. To address this limitation, we propose human-parsing-guided attention diffusion, a novel approach that effectively preserves both facial and clothing appearance while generating high-quality results. We propose a human-parsing-aware Siamese network that consists of three key components: dual identical UNets (TargetNet for diffusion denoising and SourceNet for source image embedding extraction), a human-parsing-guided fusion attention (HPFA), and a CLIP-guided attention alignment (CAA). The HPFA and CAA modules can embed the face and clothes patterns into the target image generation adaptively and effectively. Extensive experiments on both the in-shop clothes retrieval benchmark and the latest in-the-wild human editing dataset demonstrate our method's significant advantages over 13 baseline approaches for preserving both facial and clothes appearance in the source image.
- Abstract(参考訳): Pose-Guided Person Image Synthesis (PGPIS)は、特定のターゲットポーズ(例えば骨格)を採用しながら、被験者のアイデンティティをソースイメージから保持する画像を生成する。
拡散に基づくPGPIS法は、ポーズ変換中に顔の特徴を効果的に保存するが、拡散過程を通して元の画像から衣服の詳細を正確に保持するのに苦慮することが多い。
この制限は、衣料品の保存が著作権保護に不可欠であるファッション業界におけるPGPISアプリケーションに大きな影響を及ぼす、ソースとターゲットのポーズに重大な違いがある場合に特に問題となる。
本分析により, この制限は, 衣服パターンを適切に捕捉・保存できない条件拡散モデルの注意モジュールに起因していることが明らかとなった。
この制限に対処するために, 顔と衣服の外観を効果的に保ちながら, 高品質な結果をもたらす新しいアプローチである, パーシング誘導注意拡散法を提案する。
本稿では,2つの異なるUNets(拡散復調用TargetNet,ソース画像埋め込み用SourceNet),HPFA,CLIP誘導型注意アライメント(CAA)の3つの主要コンポーネントから構成されるヒューマンパーシング対応のSiameseネットワークを提案する。
HPFAおよびCAAモジュールは、顔や衣服のパターンをターゲット画像生成に適応的かつ効果的に埋め込むことができる。
In-shop衣料品検索ベンチマークと最新の人体編集データセットの両方に関する大規模な実験は、原画像の顔と衣服の両方を保存するための13のベースラインアプローチに対して、我々の方法の顕著な優位性を実証している。
関連論文リスト
- Privacy Protection in Personalized Diffusion Models via Targeted Cross-Attention Adversarial Attack [5.357486699062561]
本稿では,CoPSAM(Selective Attention Manipulation)による新規かつ効率的な対向攻撃法を提案する。
この目的のために、クリーンなサンプルに付加される知覚不可能なノイズを慎重に構築し、その逆のノイズを得る。
CelebA-HQ顔画像データセットのサブセットに対する実験的検証は、我々のアプローチが既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-25T14:39:18Z) - Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild [17.025262797698364]
仮想トライオン(Virtual Try-On)は、人物や衣服の特徴を保ちながら、画像中の衣服を別のものに置き換えることを目的としている。
現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。
本稿では,衣服の着衣を参考に塗布するためのゼロショットトレーニングフリーな新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T17:45:37Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On [35.227896906556026]
衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T08:27:59Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - Semantic-aware One-shot Face Re-enactment with Dense Correspondence
Estimation [100.60938767993088]
ワンショットの顔の再現は、ソースと駆動する顔の同一性ミスマッチのため、難しい作業である。
本稿では,3次元形態素モデル(3DMM)を明示的な顔のセマンティックな分解とアイデンティティの絡み合いに利用することを提案する。
論文 参考訳(メタデータ) (2022-11-23T03:02:34Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。