論文の概要: Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.02523v1
- Date: Sun, 05 Jan 2025 12:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:57.138339
- Title: Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation
- Title(参考訳): Face-MakeUp:テキスト対画像生成のためのマルチモーダル顔プロンプト
- Authors: Dawei Dai, Mingming Jia, Yinxiu Zhou, Hang Xing, Chenghang Li,
- Abstract要約: LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。
本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Facial images have extensive practical applications. Although the current large-scale text-image diffusion models exhibit strong generation capabilities, it is challenging to generate the desired facial images using only text prompt. Image prompts are a logical choice. However, current methods of this type generally focus on general domain. In this paper, we aim to optimize image makeup techniques to generate the desired facial images. Specifically, (1) we built a dataset of 4 million high-quality face image-text pairs (FaceCaptionHQ-4M) based on LAION-Face to train our Face-MakeUp model; (2) to maintain consistency with the reference facial image, we extract/learn multi-scale content features and pose features for the facial image, integrating these into the diffusion model to enhance the preservation of facial identity features for diffusion models. Validation on two face-related test datasets demonstrates that our Face-MakeUp can achieve the best comprehensive performance.All codes are available at:https://github.com/ddw2AIGROUP2CQUPT/Face-MakeUp
- Abstract(参考訳): 顔画像は幅広い実用的応用がある。
現在の大規模テキスト画像拡散モデルには強力な生成能力があるが,テキストプロンプトのみを用いて所望の顔画像を生成することは困難である。
画像プロンプトは論理的な選択です。
しかし、このタイプの現在の手法は一般に一般領域に焦点を当てている。
本稿では,所望の顔画像を生成するために,画像作成手法を最適化することを目的とする。
具体的には、(1)LAION-Faceに基づく400万の高品質顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築し、顔-メイクアップモデルをトレーニングし、(2)参照顔画像との整合性を維持するために、マルチスケールコンテンツの特徴を抽出・学習し、顔画像の特徴を合成し、これらを拡散モデルに統合し、拡散モデルのための顔識別機能の保存を強化する。
顔に関連する2つのテストデータセットの検証では、Face-MakeUpが最高の包括的なパフォーマンスを達成可能であることが示されている。
関連論文リスト
- DynamicFace: High-Quality and Consistent Video Face Swapping using Composable 3D Facial Priors [24.721887093958284]
顔交換は、ターゲット顔の表情、ポーズ、髪、背景などの属性を保持しながら、ソース顔のアイデンティティをターゲット顔に転送する。
本稿では,拡散モデルとプラグイン・アンド・プレイ時層を利用した映像面スワップを実現するDynamicFaceを提案する。
本手法は,顔のスワップ,画像の画質,アイデンティティの保存,表情の正確性を示す。
論文 参考訳(メタデータ) (2025-01-15T03:28:14Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - 15M Multimodal Facial Image-Text Dataset [5.552727861734425]
FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されている。
画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
論文 参考訳(メタデータ) (2024-07-11T14:00:14Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Face Swap via Diffusion Model [4.026688121914668]
本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-03-02T07:02:17Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - One Shot Face Swapping on Megapixels [65.47443090320955]
本稿では,顔面スワッピング(略してMegaFS)における最初のメガピクセルレベル法を提案する。
本手法の成功に対する3つの新しい貢献は,顔の完全な表現,安定したトレーニング,限られたメモリ使用量である。
論文 参考訳(メタデータ) (2021-05-11T10:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。