論文の概要: Face2Diffusion for Fast and Editable Face Personalization
- arxiv url: http://arxiv.org/abs/2403.05094v1
- Date: Fri, 8 Mar 2024 06:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:45:30.278591
- Title: Face2Diffusion for Fast and Editable Face Personalization
- Title(参考訳): 高速かつ編集可能な顔パーソナライズのためのface2diffusion
- Authors: Kaede Shiohara, Toshihiko Yamasaki
- Abstract要約: 顔のパーソナライズのためのFace2Diffusion(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を削除することで、オーバーフィッティングの問題を防ぐことである。
F2Dは以下の3つの新しい構成要素から構成される。
- 参考スコア(独自算出の注目度): 33.65484538815936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face personalization aims to insert specific faces, taken from images, into
pretrained text-to-image diffusion models. However, it is still challenging for
previous methods to preserve both the identity similarity and editability due
to overfitting to training samples. In this paper, we propose Face2Diffusion
(F2D) for high-editability face personalization. The core idea behind F2D is
that removing identity-irrelevant information from the training pipeline
prevents the overfitting problem and improves editability of encoded faces. F2D
consists of the following three novel components: 1) Multi-scale identity
encoder provides well-disentangled identity features while keeping the benefits
of multi-scale information, which improves the diversity of camera poses. 2)
Expression guidance disentangles face expressions from identities and improves
the controllability of face expressions. 3) Class-guided denoising
regularization encourages models to learn how faces should be denoised, which
boosts the text-alignment of backgrounds. Extensive experiments on the
FaceForensics++ dataset and diverse prompts demonstrate our method greatly
improves the trade-off between the identity- and text-fidelity compared to
previous state-of-the-art methods.
- Abstract(参考訳): 顔のパーソナライゼーションは、画像から得られた特定の顔を事前訓練されたテキスト・画像拡散モデルに挿入することを目的としている。
しかし、従来の手法では、トレーニングサンプルに過度に適合するため、アイデンティティの類似性と編集性の両方を維持することは依然として困難である。
本稿では,顔のパーソナライズのためのFace2D(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を取り除くことで過度に適合する問題を防止し、符号化された顔の編集性を改善することである。
F2Dは以下の3つの新しい構成要素から構成される。
1)マルチスケールのアイデンティティエンコーダは、マルチスケール情報の利点を保ちつつ、高度に分離されたアイデンティティ機能を提供し、カメラのポーズの多様性を向上させる。
2)表情指導は顔の表情をアイデンティティから切り離し,表情の制御性を向上させる。
3) クラス誘導型認知正規化は, 背景のテキストアライメントを高めるために, 顔の認知の仕方を学ぶモデルを奨励する。
FaceForensics++データセットと多様なプロンプトに関する大規模な実験は、従来の最先端手法と比較して、アイデンティティとテキストフィデリティのトレードオフを大幅に改善することを示した。
関連論文リスト
- FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。