論文の概要: Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation
- arxiv url: http://arxiv.org/abs/2405.04356v1
- Date: Tue, 7 May 2024 14:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:50:50.379568
- Title: Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation
- Title(参考訳): 多モード顔画像生成のための拡散駆動型GANインバージョン
- Authors: Jihyun Kim, Changjae Oh, Hoseok Do, Soohyun Kim, Kwanghoon Sohn,
- Abstract要約: 本稿では,テキストプロンプトとセマンティックマスクやマップなどの視覚入力を写真リアルな顔画像に変換するマルチモーダル顔画像生成手法を提案する。
本稿では,2つのモデルを連結し,特徴写像と注目マップの有意な表現を潜在符号に変換するための,シンプルなマッピングとスタイル変調ネットワークを提案する。
提案するネットワークは, リアルな2D, マルチビュー, スタイル化された顔画像を生成する。
- 参考スコア(独自算出の注目度): 41.341693150031546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new multi-modal face image generation method that converts a text prompt and a visual input, such as a semantic mask or scribble map, into a photo-realistic face image. To do this, we combine the strengths of Generative Adversarial networks (GANs) and diffusion models (DMs) by employing the multi-modal features in the DM into the latent space of the pre-trained GANs. We present a simple mapping and a style modulation network to link two models and convert meaningful representations in feature maps and attention maps into latent codes. With GAN inversion, the estimated latent codes can be used to generate 2D or 3D-aware facial images. We further present a multi-step training strategy that reflects textual and structural representations into the generated image. Our proposed network produces realistic 2D, multi-view, and stylized face images, which align well with inputs. We validate our method by using pre-trained 2D and 3D GANs, and our results outperform existing methods. Our project page is available at https://github.com/1211sh/Diffusion-driven_GAN-Inversion/.
- Abstract(参考訳): 本稿では,テキストプロンプトとセマンティックマスクやスクリブルマップなどの視覚入力を写真リアルな顔画像に変換するマルチモーダル顔画像生成手法を提案する。
そこで我々は,GAN(Generative Adversarial Network)と拡散モデル(Difusion Model, DM)の長所を,DMのマルチモーダル特徴を事前学習されたGANの潜時空間に利用することによって組み合わせる。
本稿では,2つのモデルを連結し,特徴写像と注目マップの有意な表現を潜在符号に変換するための,シンプルなマッピングとスタイル変調ネットワークを提案する。
GANインバージョンでは、推定された潜伏符号を用いて2Dまたは3D対応の顔画像を生成することができる。
さらに,生成した画像にテキストおよび構造表現を反映した多段階学習戦略を提案する。
提案するネットワークは, リアルな2D, マルチビュー, スタイル化された顔画像を生成する。
事前学習した2Dおよび3D GANを用いて本手法の有効性を検証し,既存の手法よりも優れた結果を得た。
私たちのプロジェクトページはhttps://github.com/1211sh/Diffusion-driven_GAN-Inversion/で公開されています。
関連論文リスト
- MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。
画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。
提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T09:21:07Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - FENeRF: Face Editing in Neural Radiance Fields [34.332520597067074]
FENeRFは、ビュー一貫性と局所編集可能なポートレート画像を生成することができる3D対応ジェネレータである。
本手法では,2つの非結合型潜時符号を用いて,空間配向3次元ボリュームにおける顔のセマンティクスとテクスチャを共通形状で生成する。
実験の結果、FENeRFは様々な顔編集タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-11-30T15:23:08Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。