論文の概要: Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
- arxiv url: http://arxiv.org/abs/2405.12970v1
- Date: Tue, 21 May 2024 17:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:30:44.642897
- Title: Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
- Title(参考訳): 微粒化IDと属性制御を用いた事前学習拡散モデルのための顔適応器
- Authors: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu,
- Abstract要約: Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
- 参考スコア(独自算出の注目度): 59.954322727683746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
- Abstract(参考訳): 現在の顔の再現と交換は、主にGANフレームワークに依存しているが、近年では、より優れた生成能力のために、事前訓練された拡散モデルに焦点が移っている。
しかし、これらのモデルのトレーニングはリソース集約的であり、その結果はまだ満足のいくパフォーマンスレベルに達していない。
この問題に対処するために,事前学習した拡散モデルに対する高精度かつ高忠実な顔編集のための,効率的かつ効果的なアダプタであるFace-Adapterを導入する。
顔の再現・スワッピング作業は、基本的にターゲット構造、ID、属性の組み合わせを含む。
1つのモデルで両方のタスクを達成するために、これらの要因のコントロールを十分に分離することを目指している。
具体的には,以下の方法を含む。
1) 正確なランドマーク及び背景を提供する空間条件発生装置
2) 変圧器デコーダにより顔の埋め込みをテキスト空間に転送するプラグイン・アンド・プレイのアイデンティティ・エンコーダ。
3) 空間条件と詳細な属性を統合する属性コントローラ
Face-Adapterは、完全に調整された顔の再現/スワッピングモデルと比較して、モーションコントロールの精度、ID保持能力、生成品質において同等またはそれ以上の性能を達成する。
さらに、Face-Adapterは様々なStableDiffusionモデルとシームレスに統合される。
関連論文リスト
- Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文 参考訳(メタデータ) (2025-02-04T16:36:07Z) - MV-Adapter: Multi-view Consistent Image Generation Made Easy [60.93957644923608]
既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージモデルに侵入的な修正を加えることが多い。
マルチビュー画像生成のための最初のアダプタと,汎用的なプラグアンドプレイアダプタであるMVAdapterを提案する。
論文 参考訳(メタデータ) (2024-12-04T18:48:20Z) - FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization [24.600720169589334]
アダプタベースの手法は、顔データに対するテキスト・ツー・イメージのトレーニングによって、肖像画をカスタマイズし、生成する能力を得る。
ベースモデルと比較して、テスト後の能力、制御性、生成した顔の多様性が著しく低下することが多い。
我々は、モデルアーキテクチャとトレーニング戦略の両方に焦点を当てた、非結合トレーニング(FACT)フレームワークによるFace Adapterを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:25:24Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。