論文の概要: M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face
Generation and Editing
- arxiv url: http://arxiv.org/abs/2402.02369v1
- Date: Sun, 4 Feb 2024 06:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:14:05.290649
- Title: M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face
Generation and Editing
- Title(参考訳): m$^3$face:人間の顔の生成と編集のための統合マルチモーダル多言語フレームワーク
- Authors: Mohammadreza Mofayezi, Reza Alipour, Mohammad Ali Kakavand, Ehsaneddin
Asgari
- Abstract要約: M3Faceは、制御可能な顔生成と編集のための統合マルチモーダル多言語フレームワークである。
我々は、フレームワークの顔生成と編集機能を示すために、広範囲な定性的かつ定量的な実験を行う。
- 参考スコア(独自算出の注目度): 1.1568321604041945
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human face generation and editing represent an essential task in the era of
computer vision and the digital world. Recent studies have shown remarkable
progress in multi-modal face generation and editing, for instance, using face
segmentation to guide image generation. However, it may be challenging for some
users to create these conditioning modalities manually. Thus, we introduce
M3Face, a unified multi-modal multilingual framework for controllable face
generation and editing. This framework enables users to utilize only text input
to generate controlling modalities automatically, for instance, semantic
segmentation or facial landmarks, and subsequently generate face images. We
conduct extensive qualitative and quantitative experiments to showcase our
frameworks face generation and editing capabilities. Additionally, we propose
the M3CelebA Dataset, a large-scale multi-modal and multilingual face dataset
containing high-quality images, semantic segmentations, facial landmarks, and
different captions for each image in multiple languages. The code and the
dataset will be released upon publication.
- Abstract(参考訳): 人間の顔の生成と編集は、コンピュータビジョンとデジタルワールドの時代に欠かせない課題である。
近年の研究では、顔のセグメンテーションを用いて画像生成を導くなど、マルチモーダルな顔生成と編集が著しく進歩している。
しかし、一部のユーザーが手動で条件付きモダリティを作成するのは困難かもしれない。
そこで本稿では,顔生成と編集を制御可能なマルチモーダル多言語フレームワークであるM3Faceを紹介する。
このフレームワークにより、ユーザはテキスト入力のみを使用して、セマンティックセグメンテーションや顔ランドマークなどの制御モダリティを自動的に生成し、その後に顔画像を生成することができる。
我々は、フレームワークの顔生成と編集機能を示すために、広範囲な定性的かつ定量的な実験を行う。
さらに,M3CelebAデータセットは,高品質な画像,セマンティックセグメンテーション,顔のランドマーク,さまざまなキャプションを含む大規模マルチモーダル・多言語顔データセットである。
コードとデータセットは公開時にリリースされる。
関連論文リスト
- Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,Segment Anything Model が生成したセグメンテーションをトレーニングと推論の両方に活用することである。
実験により, MuDI は同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが実証された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - 3D-aware Image Generation and Editing with Multi-modal Conditions [6.444512435220748]
1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。
複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
論文 参考訳(メタデータ) (2024-03-11T07:10:37Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - MyPortrait: Morphable Prior-Guided Personalized Portrait Generation [19.911068375240905]
Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。
提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。
提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
論文 参考訳(メタデータ) (2023-12-05T12:05:01Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。