論文の概要: Diff-PC: Identity-preserving and 3D-aware Controllable Diffusion for Zero-shot Portrait Customization
- arxiv url: http://arxiv.org/abs/2602.00639v1
- Date: Sat, 31 Jan 2026 10:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.309451
- Title: Diff-PC: Identity-preserving and 3D-aware Controllable Diffusion for Zero-shot Portrait Customization
- Title(参考訳): Diff-PC:ゼロショット画像カスタマイズのためのID保存と3D対応制御可能拡散
- Authors: Yifang Xu, Benxiang Zhai, Chenyu Zhang, Ming Li, Yang Li, Sidan Du,
- Abstract要約: Diff-PCはゼロショットポートレートカスタマイズ(PC)のための拡散ベースのフレームワークである
写実的なポートレートを生成し、IDの忠実度が高く、顔の特徴が特定され、背景も様々である。
本手法では, 3次元顔予測器を用いて, 3次元顔の事前認識を再構築する。
- 参考スコア(独自算出の注目度): 13.128154695283477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Portrait customization (PC) has recently garnered significant attention due to its potential applications. However, existing PC methods lack precise identity (ID) preservation and face control. To address these tissues, we propose Diff-PC, a diffusion-based framework for zero-shot PC, which generates realistic portraits with high ID fidelity, specified facial attributes, and diverse backgrounds. Specifically, our approach employs the 3D face predictor to reconstruct the 3D-aware facial priors encompassing the reference ID, target expressions, and poses. To capture fine-grained face details, we design ID-Encoder that fuses local and global facial features. Subsequently, we devise ID-Ctrl using the 3D face to guide the alignment of ID features. We further introduce ID-Injector to enhance ID fidelity and facial controllability. Finally, training on our collected ID-centric dataset improves face similarity and text-to-image (T2I) alignment. Extensive experiments demonstrate that Diff-PC surpasses state-of-the-art methods in ID preservation, facial control, and T2I consistency. Furthermore, our method is compatible with multi-style foundation models.
- Abstract(参考訳): ポートレートのカスタマイズ(PC)は、その潜在的な応用により、最近大きな注目を集めている。
しかし、既存のPC手法にはID保存と顔制御が欠如している。
これらの組織に対処するため,ゼロショットPCのための拡散型フレームワークであるDiff-PCを提案する。
具体的には、3D顔予測器を用いて、参照ID、ターゲット表現、ポーズを含む3D認識顔の事前情報を再構成する。
精細な顔の詳細を捉えるため、局所的およびグローバルな顔特徴を融合するIDエンコーダを設計する。
その後,ID特徴のアライメントを誘導するために3次元顔を用いたID-Ctrlを考案した。
さらに,IDの忠実度と顔の制御性を高めるためのIDインジェクタを導入する。
最後に、収集したID中心データセットのトレーニングにより、顔の類似性とテキスト・ツー・イメージ(T2I)のアライメントが改善される。
大規模な実験により、Diff-PCはID保存、顔制御、T2I一貫性において最先端の手法を超越していることが示された。
さらに,本手法はマルチスタイル基礎モデルと互換性がある。
関連論文リスト
- HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face Fusion [12.382436378979564]
HiFi-Portraitはゼロショットポートレート生成のための高忠実度手法である。
我々の手法は相似性と制御性においてSOTAアプローチを超越している。
論文 参考訳(メタデータ) (2025-12-16T16:17:46Z) - DiffSwap++: 3D Latent-Controlled Diffusion for Identity-Preserving Face Swapping [16.846179110602737]
そこで我々は,DiffSwap++を提案する。DiffSwap++は,トレーニング中に3D顔の潜伏機能を組み込んだ,拡散型フェイススワッピングパイプラインである。
本手法は, 形状整合性を高め, 外観特性から顔の識別のゆがみを改善する。
CelebA、FFHQ、CelebV-Textの実験では、DiffSwap++はターゲットのポーズと表現を維持しながらソースのアイデンティティを保ちながら、以前のメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-11-04T18:56:49Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [64.90148669690228]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。