論文の概要: Towards Consistent and Controllable Image Synthesis for Face Editing
- arxiv url: http://arxiv.org/abs/2502.02465v1
- Date: Tue, 04 Feb 2025 16:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:53.397833
- Title: Towards Consistent and Controllable Image Synthesis for Face Editing
- Title(参考訳): 顔編集のための一貫性と制御可能な画像合成を目指して
- Authors: Mengting Wei, Tuomas Varanka, Yante Li, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao,
- Abstract要約: 現在の顔編集法は主にGANに基づく手法に依存しているが、近年では画像再構成の成功により拡散モデルに焦点が移っている。
本研究では,静止拡散モデルと粗い3次元顔モデルのパワーを利用して,肖像画の照明,表情,頭部ポーズを制御する新しいアプローチを提案する。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
- 参考スコア(独自算出の注目度): 18.646961062736207
- License:
- Abstract: Current face editing methods mainly rely on GAN-based techniques, but recent focus has shifted to diffusion-based models due to their success in image reconstruction. However, diffusion models still face challenges in manipulating fine-grained attributes and preserving consistency of attributes that should remain unchanged. To address these issues and facilitate more convenient editing of face images, we propose a novel approach that leverages the power of Stable-Diffusion models and crude 3D face models to control the lighting, facial expression and head pose of a portrait photo. We observe that this task essentially involve combinations of target background, identity and different face attributes. We aim to sufficiently disentangle the control of these factors to enable high-quality of face editing. Specifically, our method, coined as RigFace, contains: 1) A Spatial Arrtibute Encoder that provides presise and decoupled conditions of background, pose, expression and lighting; 2) An Identity Encoder that transfers identity features to the denoising UNet of a pre-trained Stable-Diffusion model; 3) An Attribute Rigger that injects those conditions into the denoising UNet. Our model achieves comparable or even superior performance in both identity preservation and photorealism compared to existing face editing models.
- Abstract(参考訳): 現在の顔編集法は主にGANに基づく手法に依存しているが、近年では画像再構成の成功により拡散モデルに焦点が移っている。
しかし、拡散モデルは、きめ細かい属性を操作することや、変更すべき属性の一貫性を維持することの課題に直面している。
これらの問題に対処し、より便利な顔画像の編集を容易にするために、安定拡散モデルと粗い3次元顔モデルのパワーを活用して、肖像画の照明、表情、頭部ポーズを制御する新しいアプローチを提案する。
このタスクには基本的に、対象の背景、アイデンティティ、異なる顔属性の組み合わせが含まれる。
我々は,これらの要因の制御を十分に切り離して,高品質な顔編集を実現することを目的としている。
具体的には、RigFaceとして造られたメソッドには、以下のものが含まれます。
1 背景、ポーズ、表現及び照明の予備的かつ疎結合な状態を提供する空間アルティブトエンコーダ
2) 同一性の特徴を事前訓練された安定拡散モデルの復号化UNetに転送するアイデンティティエンコーダ
3) これらの条件をデノイングUNetに注入する属性リガー。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
関連論文リスト
- MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control [17.86535640560411]
同一人物からの顔行動単位(AU)の相対的変動を制御し,表情編集の課題に対処する。
これにより、特定の人の表現をきめ細かな、連続的で解釈可能な方法で編集することができる。
MagicFaceをダブしたモデルのキーとなるのは、AUのバリエーションとIDエンコーダを条件とした拡散モデルです。
論文 参考訳(メタデータ) (2025-01-04T11:28:49Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Pixel Sampling for Style Preserving Face Pose Editing [53.14006941396712]
ジレンマを解くための新しい2段階のアプローチとして,顔のポーズ操作のタスクを顔に塗布する手法を提案する。
入力面から画素を選択的にサンプリングし、その相対位置をわずかに調整することにより、顔編集結果は、画像スタイルとともにアイデンティティ情報を忠実に保持する。
3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作できるので、より柔軟な顔のポーズ編集が可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。