論文の概要: M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face
Generation and Editing
- arxiv url: http://arxiv.org/abs/2402.02369v1
- Date: Sun, 4 Feb 2024 06:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:14:05.290649
- Title: M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face
Generation and Editing
- Title(参考訳): m$^3$face:人間の顔の生成と編集のための統合マルチモーダル多言語フレームワーク
- Authors: Mohammadreza Mofayezi, Reza Alipour, Mohammad Ali Kakavand, Ehsaneddin
Asgari
- Abstract要約: M3Faceは、制御可能な顔生成と編集のための統合マルチモーダル多言語フレームワークである。
我々は、フレームワークの顔生成と編集機能を示すために、広範囲な定性的かつ定量的な実験を行う。
- 参考スコア(独自算出の注目度): 1.1568321604041945
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human face generation and editing represent an essential task in the era of
computer vision and the digital world. Recent studies have shown remarkable
progress in multi-modal face generation and editing, for instance, using face
segmentation to guide image generation. However, it may be challenging for some
users to create these conditioning modalities manually. Thus, we introduce
M3Face, a unified multi-modal multilingual framework for controllable face
generation and editing. This framework enables users to utilize only text input
to generate controlling modalities automatically, for instance, semantic
segmentation or facial landmarks, and subsequently generate face images. We
conduct extensive qualitative and quantitative experiments to showcase our
frameworks face generation and editing capabilities. Additionally, we propose
the M3CelebA Dataset, a large-scale multi-modal and multilingual face dataset
containing high-quality images, semantic segmentations, facial landmarks, and
different captions for each image in multiple languages. The code and the
dataset will be released upon publication.
- Abstract(参考訳): 人間の顔の生成と編集は、コンピュータビジョンとデジタルワールドの時代に欠かせない課題である。
近年の研究では、顔のセグメンテーションを用いて画像生成を導くなど、マルチモーダルな顔生成と編集が著しく進歩している。
しかし、一部のユーザーが手動で条件付きモダリティを作成するのは困難かもしれない。
そこで本稿では,顔生成と編集を制御可能なマルチモーダル多言語フレームワークであるM3Faceを紹介する。
このフレームワークにより、ユーザはテキスト入力のみを使用して、セマンティックセグメンテーションや顔ランドマークなどの制御モダリティを自動的に生成し、その後に顔画像を生成することができる。
我々は、フレームワークの顔生成と編集機能を示すために、広範囲な定性的かつ定量的な実験を行う。
さらに,M3CelebAデータセットは,高品質な画像,セマンティックセグメンテーション,顔のランドマーク,さまざまなキャプションを含む大規模マルチモーダル・多言語顔データセットである。
コードとデータセットは公開時にリリースされる。
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。
画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。
提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T09:21:07Z) - 3D-aware Image Generation and Editing with Multi-modal Conditions [6.444512435220748]
1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。
複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
論文 参考訳(メタデータ) (2024-03-11T07:10:37Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。