論文の概要: Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization
- arxiv url: http://arxiv.org/abs/2403.06702v2
- Date: Fri, 24 May 2024 02:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:46:55.357273
- Title: Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization
- Title(参考訳): 直接クロスモーダルマッピングと幾何正規化による高速テキスト・ツー・3次元顔生成・操作
- Authors: Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: テキストから3D対応顔(T3D Face)の生成と操作は、機械学習における新たなホットスポットである。
E3$-FaceNetと呼ばれる高速かつ高精度なT3D顔生成と操作のためのエンド・ツー・エンド・エンド・エフェクト・ネットワークを提案する。
- 参考スコア(独自算出の注目度): 67.64430562689398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D-aware face (T3D Face) generation and manipulation is an emerging research hot spot in machine learning, which still suffers from low efficiency and poor quality. In this paper, we propose an End-to-End Efficient and Effective network for fast and accurate T3D face generation and manipulation, termed $E^3$-FaceNet. Different from existing complex generation paradigms, $E^3$-FaceNet resorts to a direct mapping from text instructions to 3D-aware visual space. We introduce a novel Style Code Enhancer to enhance cross-modal semantic alignment, alongside an innovative Geometric Regularization objective to maintain consistency across multi-view generations. Extensive experiments on three benchmark datasets demonstrate that $E^3$-FaceNet can not only achieve picture-like 3D face generation and manipulation, but also improve inference speed by orders of magnitudes. For instance, compared with Latent3D, $E^3$-FaceNet speeds up the five-view generations by almost 470 times, while still exceeding in generation quality. Our code is released at https://github.com/Aria-Zhangjl/E3-FaceNet.
- Abstract(参考訳): テキストから3D対応顔(T3D Face)の生成と操作は、機械学習における新たなホットスポットであり、依然として低効率と低品質に悩まされている。
本稿では,高速かつ高精度なT3D顔生成と操作のためのエンド・ツー・エンド・エンド・エフェクト・ネットワークを提案し,これを$E^3$-FaceNetと呼ぶ。
既存の複雑な生成パラダイムとは異なり、$E^3$-FaceNetはテキスト命令から3D対応の視覚空間への直接マッピングを利用する。
我々は,多視点世代間の一貫性を維持するために,新しいスタイルコードエンハンサーを導入し,モジュール間のセマンティックアライメントを強化する。
3つのベンチマークデータセットの大規模な実験により、$E^3$-FaceNetは画像のような3D顔の生成と操作を達成できるだけでなく、桁違いの推測速度も改善できることが示された。
たとえば、Latent3Dと比較すると、$E^3$-FaceNetは5世代をほぼ470倍スピードアップするが、それでも世代品質は上回っている。
私たちのコードはhttps://github.com/Aria-Zhangjl/E3-FaceNet.orgで公開されています。
関連論文リスト
- VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Controllable 3D Face Generation with Conditional Style Code Diffusion [51.24656496304069]
TEx-Face(TExt & Expression-to-Face)は、タスクを3D GANインバージョン、条件付きスタイルコード拡散、3D Face Decodingという3つのコンポーネントに分割することで、課題に対処する。
FFHQ、CelebA-HQ、CelebA-Dialogで実施された実験は、我々のTEx-Faceの有望なパフォーマンスを実証している。
論文 参考訳(メタデータ) (2023-12-21T15:32:49Z) - ET3D: Efficient Text-to-3D Generation via Multi-View Distillation [11.520777124553195]
本稿では,消費者グラフィックカード上のテキストプロンプトから3Dアセットを生成するのに8ドル程度しか必要としない,効率的なテキスト・ツー・3D生成手法を提案する。
提案手法は3次元学習データを必要としないため,事前学習した画像拡散モデルを蒸留することにより,効率的なテキスト・ツー・3次元生成のための代替手法を提供する。
論文 参考訳(メタデータ) (2023-11-27T06:14:23Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - Unpaired Multi-domain Attribute Translation of 3D Facial Shapes with a
Square and Symmetric Geometric Map [23.461476902880584]
本稿では3次元顔属性変換のための学習フレームワークを提案する。
我々は3次元形状表現に新しい幾何学的マップを使用し、それをエンド・ツー・エンドな生成対角ネットワークに埋め込む。
マルチドメイン属性変換には,統一的かつ不公平な学習フレームワークを採用している。
論文 参考訳(メタデータ) (2023-08-25T08:37:55Z) - Generating 2D and 3D Master Faces for Dictionary Attacks with a
Network-Assisted Latent Space Evolution [68.8204255655161]
マスターフェイス(英: master face)とは、人口の比率の高い顔認証をパスする顔画像である。
2次元および3次元の顔認証モデルに対して,これらの顔の最適化を行う。
3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。
論文 参考訳(メタデータ) (2022-11-25T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。