論文の概要: Face Swap via Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.01108v1
- Date: Sat, 2 Mar 2024 07:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:20:09.649057
- Title: Face Swap via Diffusion Model
- Title(参考訳): 拡散モデルによる顔スワップ
- Authors: Feifei Wang
- Abstract要約: 本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本的なフレームワークは、IP-Adapter、ControlNet、Stable Diffusionの3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 4.026688121914668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents a diffusion model based framework for face
swapping between two portrait images. The basic framework consists of three
components, i.e., IP-Adapter, ControlNet, and Stable Diffusion's inpainting
pipeline, for face feature encoding, multi-conditional generation, and face
inpainting respectively. Besides, I introduce facial guidance optimization and
CodeFormer based blending to further improve the generation quality.
Specifically, we engage a recent light-weighted customization method (i.e.,
DreamBooth-LoRA), to guarantee the identity consistency by 1) using a rare
identifier "sks" to represent the source identity, and 2) injecting the image
features of source portrait into each cross-attention layer like the text
features. Then I resort to the strong inpainting ability of Stable Diffusion,
and utilize canny image and face detection annotation of the target portrait as
the conditions, to guide ContorlNet's generation and align source portrait with
the target portrait. To further correct face alignment, we add the facial
guidance loss to optimize the text embedding during the sample generation.
- Abstract(参考訳): 本稿では,2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
ip-adapter、controlnet、stable diffusionのinpainting pipelineの3つのコンポーネントで構成されており、それぞれface feature encoding、multi-conditional generation、face inpaintingである。
さらに、顔面誘導最適化とCodeFormerベースのブレンディングを導入して、生成品質をさらに改善します。
具体的には,最近の軽量カスタマイズ手法(dreambooth-lora)を用いて,アイデンティティの一貫性を保証する。
1) ソースIDを表すために稀な識別子 "sks" を使用して,
2)テキスト特徴のような各クロスアテンション層にソースポートレートの画像特徴を注入する。
次に、安定拡散の強い塗装能力を活用し、ターゲットポートレートのキャニー画像と顔検出アノテーションを条件として利用し、ContorlNetの生成をガイドし、ソースポートレートとターゲットポートレートを整列させる。
さらに顔のアライメントを補正するため、サンプル生成時のテキスト埋め込みを最適化するために顔誘導損失を追加する。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Controllable 3D Face Generation with Conditional Style Code Diffusion [51.24656496304069]
TEx-Face(TExt & Expression-to-Face)は、タスクを3D GANインバージョン、条件付きスタイルコード拡散、3D Face Decodingという3つのコンポーネントに分割することで、課題に対処する。
FFHQ、CelebA-HQ、CelebA-Dialogで実施された実験は、我々のTEx-Faceの有望なパフォーマンスを実証している。
論文 参考訳(メタデータ) (2023-12-21T15:32:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DCFace: Synthetic Face Generation with Dual Condition Diffusion Model [18.662943303044315]
本稿では拡散モデルに基づくDCFace(Dual Condition Face Generator)を提案する。
われわれの新しいPatch-wiseスタイル抽出器と時間ステップ依存ID損失により、DCFaceは、同じ対象の顔画像を、正確に制御された異なるスタイルで一貫して生成することができる。
論文 参考訳(メタデータ) (2023-04-14T11:31:49Z) - Face Transformer: Towards High Fidelity and Accurate Face Swapping [54.737909435708936]
Face swappingは、ソース顔の同一性とターゲット顔の属性を融合させるスワップ画像を生成することを目的としている。
本稿では,顔の同一性と対象属性を同時に正確に保存できる新しい顔交換ネットワークであるFace Transformerを提案する。
論文 参考訳(メタデータ) (2023-04-05T15:51:44Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer
Using Neural Generative Adversarial Networks [0.7043489166804575]
顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。
本稿では,2次元領域で使用されている画像と画像の変換ネットワークを3次元顔形状に適応させる手法を提案する。
論文 参考訳(メタデータ) (2021-12-01T14:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。