論文の概要: Towards Consistent and Controllable Image Synthesis for Face Editing
- arxiv url: http://arxiv.org/abs/2502.02465v2
- Date: Sun, 09 Feb 2025 14:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:43.577805
- Title: Towards Consistent and Controllable Image Synthesis for Face Editing
- Title(参考訳): 顔編集のための一貫性と制御可能な画像合成を目指して
- Authors: Mengting Wei, Tuomas Varanka, Yante Li, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao,
- Abstract要約: RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
- 参考スコア(独自算出の注目度): 18.646961062736207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face editing methods, essential for tasks like virtual avatars, digital human synthesis and identity preservation, have traditionally been built upon GAN-based techniques, while recent focus has shifted to diffusion-based models due to their success in image reconstruction. However, diffusion models still face challenges in controlling specific attributes and preserving the consistency of other unchanged attributes especially the identity characteristics. To address these issues and facilitate more convenient editing of face images, we propose a novel approach that leverages the power of Stable-Diffusion (SD) models and crude 3D face models to control the lighting, facial expression and head pose of a portrait photo. We observe that this task essentially involves the combinations of target background, identity and face attributes aimed to edit. We strive to sufficiently disentangle the control of these factors to enable consistency of face editing. Specifically, our method, coined as RigFace, contains: 1) A Spatial Attribute Encoder that provides presise and decoupled conditions of background, pose, expression and lighting; 2) A high-consistency FaceFusion method that transfers identity features from the Identity Encoder to the denoising UNet of a pre-trained SD model; 3) An Attribute Rigger that injects those conditions into the denoising UNet. Our model achieves comparable or even superior performance in both identity preservation and photorealism compared to existing face editing models. Code is publicly available at https://github.com/weimengting/RigFace.
- Abstract(参考訳): 仮想アバター、デジタル人体合成、アイデンティティ保存といったタスクに不可欠な顔編集手法は、伝統的にGANベースの技術に基づいて構築されてきたが、近年では画像再構成の成功により拡散モデルに焦点が移っている。
しかし、拡散モデルは、特定の属性を制御し、他の変化しない属性の一貫性、特にアイデンティティ特性の維持に依然として課題に直面している。
これらの問題に対処し、より便利な顔画像の編集を容易にするために、安定拡散(SD)モデルと粗い3次元顔モデルのパワーを活用して、肖像画のライティング、表情、頭部ポーズを制御する新しいアプローチを提案する。
このタスクには基本的に、編集を目的としたターゲット背景、アイデンティティ、顔属性の組み合わせが含まれる。
顔編集の整合性を実現するために,これらの要因の制御を十分に切り離そうとしている。
具体的には、RigFaceとして造られたメソッドには、以下のものが含まれます。
1 背景、ポーズ、表現及び照明の態様及び分離した条件を提供する空間属性エンコーダ
2)IDエンコーダから事前訓練されたSDモデルの復号化UNetへアイデンティティ特徴を転送する高整合FaceFusion方式
3) これらの条件をデノイングUNetに注入する属性リガー。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
コードはhttps://github.com/weimengting/RigFace.comで公開されている。
関連論文リスト
- InstaFace: Identity-Preserving Facial Editing with Single Image Inference [13.067402877443902]
本稿では,単一の画像のみを用いてアイデンティティを保存しながら,現実的な画像を生成するための,新しい拡散ベースのフレームワークInstaFaceを紹介する。
InstaFaceは、トレーニング可能なパラメータを追加することなく、複数の3DMMベースの条件を統合することで、3Dの視点を活用する。
本手法は, 身元保存, 光リアリズム, ポーズ, 表情, 照明の効果的な制御において, 最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-02-27T22:37:09Z) - MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control [17.86535640560411]
同一人物からの顔行動単位(AU)の相対的変動を制御し,表情編集の課題に対処する。
これにより、特定の人の表現をきめ細かな、連続的で解釈可能な方法で編集することができる。
MagicFaceをダブしたモデルのキーとなるのは、AUのバリエーションとIDエンコーダを条件とした拡散モデルです。
論文 参考訳(メタデータ) (2025-01-04T11:28:49Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces [47.27033282706179]
提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。
我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
論文 参考訳(メタデータ) (2023-07-20T11:59:42Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Controllable Inversion of Black-Box Face Recognition Models via
Diffusion [8.620807177029892]
我々は,事前学習した顔認識モデルの潜在空間を,完全なモデルアクセスなしで反転させる作業に取り組む。
本研究では,条件付き拡散モデル損失が自然発生し,逆分布から効果的にサンプル化できることを示す。
本手法は,生成過程を直感的に制御できる最初のブラックボックス顔認識モデル逆変換法である。
論文 参考訳(メタデータ) (2023-03-23T03:02:09Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Pixel Sampling for Style Preserving Face Pose Editing [53.14006941396712]
ジレンマを解くための新しい2段階のアプローチとして,顔のポーズ操作のタスクを顔に塗布する手法を提案する。
入力面から画素を選択的にサンプリングし、その相対位置をわずかに調整することにより、顔編集結果は、画像スタイルとともにアイデンティティ情報を忠実に保持する。
3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作できるので、より柔軟な顔のポーズ編集が可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。