論文の概要: MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control
- arxiv url: http://arxiv.org/abs/2501.02260v2
- Date: Thu, 09 Jan 2025 06:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:24.464847
- Title: MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control
- Title(参考訳): MagicFace: Action-Unitコントロールによる高忠実な表情編集
- Authors: Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao,
- Abstract要約: 同一人物からの顔行動単位(AU)の相対的変動を制御し,表情編集の課題に対処する。
これにより、特定の人の表現をきめ細かな、連続的で解釈可能な方法で編集することができる。
MagicFaceをダブしたモデルのキーとなるのは、AUのバリエーションとIDエンコーダを条件とした拡散モデルです。
- 参考スコア(独自算出の注目度): 17.86535640560411
- License:
- Abstract: We address the problem of facial expression editing by controling the relative variation of facial action-unit (AU) from the same person. This enables us to edit this specific person's expression in a fine-grained, continuous and interpretable manner, while preserving their identity, pose, background and detailed facial attributes. Key to our model, which we dub MagicFace, is a diffusion model conditioned on AU variations and an ID encoder to preserve facial details of high consistency. Specifically, to preserve the facial details with the input identity, we leverage the power of pretrained Stable-Diffusion models and design an ID encoder to merge appearance features through self-attention. To keep background and pose consistency, we introduce an efficient Attribute Controller by explicitly informing the model of current background and pose of the target. By injecting AU variations into a denoising UNet, our model can animate arbitrary identities with various AU combinations, yielding superior results in high-fidelity expression editing compared to other facial expression editing works. Code is publicly available at https://github.com/weimengting/MagicFace.
- Abstract(参考訳): 同一人物からの顔行動単位(AU)の相対的変動を制御し,表情編集の課題に対処する。
これにより、特定の人物の表情をきめ細かな、連続的で解釈可能な方法で編集し、その人物のアイデンティティ、ポーズ、背景、詳細な顔の特徴を保存できる。
MagicFaceをダブしたモデルの鍵となるのは、AU変動を条件とした拡散モデルと、高一貫性の顔の詳細を保存するためのIDエンコーダです。
具体的には、入力IDで顔の詳細を保存するために、事前訓練された安定拡散モデルのパワーを活用し、IDエンコーダを設計し、自己注意を通じて外観特徴をマージする。
背景と姿勢の整合性を維持するために,現在の背景のモデルとターゲットのポーズを明示的に通知することで,効率的な属性制御を導入する。
AUのバリエーションをデノベーションUNetに注入することで、我々のモデルは様々なAU組み合わせで任意のアイデンティティをアニメーション化することができ、他の表情編集よりも高忠実度表現編集において優れた結果が得られる。
コードはhttps://github.com/weimengting/MagicFace.comで公開されている。
関連論文リスト
- Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文 参考訳(メタデータ) (2025-02-04T16:36:07Z) - Turn That Frown Upside Down: FaceID Customization via Cross-Training Data [49.51940625552275]
CrossFaceIDは、FaceIDカスタマイズモデルの顔修正機能を改善するために設計された、最初の大規模で高品質で公開可能なデータセットである。
約2000人から4万対のテキスト画像で構成され、それぞれが顔の特徴を示す約20の画像で表現されている。
トレーニング段階では、人物の特定の顔が入力として使用され、FaceIDカスタマイズモデルは、同一人物の別の画像を生成することを余儀なくされるが、顔の特徴が変化している。
実験により、CrossFaceIDデータセットに微調整されたモデルが、FaceIDの忠実性を保ちながら、その性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-01-26T05:27:38Z) - WEM-GAN: Wavelet transform based facial expression manipulation [2.0918868193463207]
We propose WEM-GAN, in short for wavelet-based expression operation GAN。
我々はウェーブレット変換技術を利用して、生成器とU-netオートエンコーダのバックボーンを結合する。
我々のモデルは、AffectNetデータセット上でのアイデンティティ機能、編集機能、画像生成品質の保存に優れています。
論文 参考訳(メタデータ) (2024-12-03T16:23:02Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing [14.537856326925178]
我々は、生成的顔画像編集のきめ細かい制御の探索に焦点をあてる。
本稿では,DisControlFaceという,拡散に基づく新しい編集フレームワークを提案する。
我々のモデルは、3Dやビデオデータを必要とすることなく、2Dインザワイルドなポートレート画像を用いて訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T08:16:55Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - Learning Disentangled Representation for One-shot Progressive Face Swapping [92.09538942684539]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
本手法は,トレーニングサンプルの少ないベンチマークデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - FaceController: Controllable Attribute Editing for Face in the Wild [74.56117807309576]
単純なフィードフォワードネットワークを提案し、高忠実度な顔を生成する。
本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。
本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。
論文 参考訳(メタデータ) (2021-02-23T02:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。