論文の概要: Face Swap via Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.01108v1
- Date: Sat, 2 Mar 2024 07:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:20:09.649057
- Title: Face Swap via Diffusion Model
- Title(参考訳): 拡散モデルによる顔スワップ
- Authors: Feifei Wang
- Abstract要約: 本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本的なフレームワークは、IP-Adapter、ControlNet、Stable Diffusionの3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 4.026688121914668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents a diffusion model based framework for face
swapping between two portrait images. The basic framework consists of three
components, i.e., IP-Adapter, ControlNet, and Stable Diffusion's inpainting
pipeline, for face feature encoding, multi-conditional generation, and face
inpainting respectively. Besides, I introduce facial guidance optimization and
CodeFormer based blending to further improve the generation quality.
Specifically, we engage a recent light-weighted customization method (i.e.,
DreamBooth-LoRA), to guarantee the identity consistency by 1) using a rare
identifier "sks" to represent the source identity, and 2) injecting the image
features of source portrait into each cross-attention layer like the text
features. Then I resort to the strong inpainting ability of Stable Diffusion,
and utilize canny image and face detection annotation of the target portrait as
the conditions, to guide ContorlNet's generation and align source portrait with
the target portrait. To further correct face alignment, we add the facial
guidance loss to optimize the text embedding during the sample generation.
- Abstract(参考訳): 本稿では,2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
ip-adapter、controlnet、stable diffusionのinpainting pipelineの3つのコンポーネントで構成されており、それぞれface feature encoding、multi-conditional generation、face inpaintingである。
さらに、顔面誘導最適化とCodeFormerベースのブレンディングを導入して、生成品質をさらに改善します。
具体的には,最近の軽量カスタマイズ手法(dreambooth-lora)を用いて,アイデンティティの一貫性を保証する。
1) ソースIDを表すために稀な識別子 "sks" を使用して,
2)テキスト特徴のような各クロスアテンション層にソースポートレートの画像特徴を注入する。
次に、安定拡散の強い塗装能力を活用し、ターゲットポートレートのキャニー画像と顔検出アノテーションを条件として利用し、ContorlNetの生成をガイドし、ソースポートレートとターゲットポートレートを整列させる。
さらに顔のアライメントを補正するため、サンプル生成時のテキスト埋め込みを最適化するために顔誘導損失を追加する。
関連論文リスト
- Controllable 3D Face Generation with Conditional Style Code Diffusion [51.24656496304069]
TEx-Face(TExt & Expression-to-Face)は、タスクを3D GANインバージョン、条件付きスタイルコード拡散、3D Face Decodingという3つのコンポーネントに分割することで、課題に対処する。
FFHQ、CelebA-HQ、CelebA-Dialogで実施された実験は、我々のTEx-Faceの有望なパフォーマンスを実証している。
論文 参考訳(メタデータ) (2023-12-21T15:32:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Face Transformer: Towards High Fidelity and Accurate Face Swapping [54.737909435708936]
Face swappingは、ソース顔の同一性とターゲット顔の属性を融合させるスワップ画像を生成することを目的としている。
本稿では,顔の同一性と対象属性を同時に正確に保存できる新しい顔交換ネットワークであるFace Transformerを提案する。
論文 参考訳(メタデータ) (2023-04-05T15:51:44Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer
Using Neural Generative Adversarial Networks [0.7043489166804575]
顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。
本稿では,2次元領域で使用されている画像と画像の変換ネットワークを3次元顔形状に適応させる手法を提案する。
論文 参考訳(メタデータ) (2021-12-01T14:42:03Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - High Resolution Face Editing with Masked GAN Latent Code Optimization [0.0]
顔の編集はコンピュータビジョンコミュニティで人気のある研究トピックである。
最近の提案手法は、条件付きエンコーダデコーダであるGAN(Generative Adversarial Network)をエンドツーエンドでトレーニングするか、事前に訓練されたバニラGANジェネレータモデルの潜時空間での動作を定義するかのいずれかである。
空間的および意味的制約を伴ったGAN組み込み最適化手順を提案する。
論文 参考訳(メタデータ) (2021-03-20T08:39:41Z) - FaceController: Controllable Attribute Editing for Face in the Wild [74.56117807309576]
単純なフィードフォワードネットワークを提案し、高忠実度な顔を生成する。
本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。
本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。
論文 参考訳(メタデータ) (2021-02-23T02:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。