Fugu-MT 論文翻訳(概要): Face Swap via Diffusion Model

論文の概要: Face Swap via Diffusion Model

arxiv url: http://arxiv.org/abs/2403.01108v2
Date: Wed, 29 May 2024 13:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 23:11:33.901353
Title: Face Swap via Diffusion Model
Title（参考訳）: 拡散モデルによる顔スワップ
Authors: Feifei Wang,
Abstract要約: 本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
参考スコア（独自算出の注目度）: 4.026688121914668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report presents a diffusion model based framework for face swapping between two portrait images. The basic framework consists of three components, i.e., IP-Adapter, ControlNet, and Stable Diffusion's inpainting pipeline, for face feature encoding, multi-conditional generation, and face inpainting respectively. Besides, I introduce facial guidance optimization and CodeFormer based blending to further improve the generation quality. Specifically, we engage a recent light-weighted customization method (i.e., DreamBooth-LoRA), to guarantee the identity consistency by 1) using a rare identifier "sks" to represent the source identity, and 2) injecting the image features of source portrait into each cross-attention layer like the text features. Then I resort to the strong inpainting ability of Stable Diffusion, and utilize canny image and face detection annotation of the target portrait as the conditions, to guide ContorlNet's generation and align source portrait with the target portrait. To further correct face alignment, we add the facial guidance loss to optimize the text embedding during the sample generation. The code is available at: https://github.com/somuchtome/Faceswap
Abstract（参考訳）: 本稿では,2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。基本フレームワークは3つのコンポーネント(IP-Adapter、ControlNet、Stable Diffusionのインパインティングパイプライン)で構成され、それぞれ顔の特徴符号化、マルチ条件生成、顔インパインティングである。さらに、顔面誘導最適化とCodeFormerベースのブレンディングを導入して、生成品質をさらに改善します。具体的には、最近の軽量化手法(DreamBooth-LoRA)に取り組み、アイデンティティの整合性を保証する。 1) 情報源の同一性を表すために稀な識別子 "sks" を用いて, 2) 画像の特徴をテキストの特徴のように各横断層に注入する。次に、安定拡散の強い塗装能力を活用し、ターゲットポートレートのキャニー画像と顔検出アノテーションを条件として利用し、ContorlNetの生成をガイドし、ソースポートレートとターゲットポートレートを整列させる。さらに顔のアライメントを補正するため、サンプル生成時のテキスト埋め込みを最適化するために顔誘導損失を追加する。コードは、https://github.com/somuchtome/Faceswap.comで入手できる。

関連論文リスト

Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文参考訳（メタデータ） (2025-02-04T16:36:07Z)
Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文参考訳（メタデータ） (2025-01-05T12:46:31Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文参考訳（メタデータ） (2024-03-25T17:59:57Z)
Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文参考訳（メタデータ） (2024-03-18T10:32:51Z)
Controllable 3D Face Generation with Conditional Style Code Diffusion [51.24656496304069]
TEx-Face(TExt & Expression-to-Face)は、タスクを3D GANインバージョン、条件付きスタイルコード拡散、3D Face Decodingという3つのコンポーネントに分割することで、課題に対処する。 FFHQ、CelebA-HQ、CelebA-Dialogで実施された実験は、我々のTEx-Faceの有望なパフォーマンスを実証している。
論文参考訳（メタデータ） (2023-12-21T15:32:49Z)
High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文参考訳（メタデータ） (2023-12-17T23:22:37Z)
When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文参考訳（メタデータ） (2023-11-29T09:05:14Z)
DCFace: Synthetic Face Generation with Dual Condition Diffusion Model [18.662943303044315]
本稿では拡散モデルに基づくDCFace(Dual Condition Face Generator)を提案する。われわれの新しいPatch-wiseスタイル抽出器と時間ステップ依存ID損失により、DCFaceは、同じ対象の顔画像を、正確に制御された異なるスタイルで一貫して生成することができる。
論文参考訳（メタデータ） (2023-04-14T11:31:49Z)
Face Transformer: Towards High Fidelity and Accurate Face Swapping [54.737909435708936]
Face swappingは、ソース顔の同一性とターゲット顔の属性を融合させるスワップ画像を生成することを目的としている。本稿では,顔の同一性と対象属性を同時に正確に保存できる新しい顔交換ネットワークであるFace Transformerを提案する。
論文参考訳（メタデータ） (2023-04-05T15:51:44Z)
StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文参考訳（メタデータ） (2023-03-06T15:48:33Z)
FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer Using Neural Generative Adversarial Networks [0.7043489166804575]
顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。本稿では,2次元領域で使用されている画像と画像の変換ネットワークを3次元顔形状に適応させる手法を提案する。
論文参考訳（メタデータ） (2021-12-01T14:42:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。