論文の概要: Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images
- arxiv url: http://arxiv.org/abs/2308.16758v1
- Date: Thu, 31 Aug 2023 14:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:15:47.710970
- Title: Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images
- Title(参考訳): 画像のみを用いた高忠実度テキスト誘導3d顔生成と操作
- Authors: Cuican Yu, Guansong Lu, Yihan Zeng, Jian Sun, Xiaodan Liang, Huibin
Li, Zongben Xu, Songcen Xu, Wei Zhang, Hang Xu
- Abstract要約: TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
- 参考スコア(独自算出の注目度): 105.92311979305065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D faces from textual descriptions has a multitude of
applications, such as gaming, movie, and robotics. Recent progresses have
demonstrated the success of unconditional 3D face generation and text-to-3D
shape generation. However, due to the limited text-3D face data pairs,
text-driven 3D face generation remains an open problem. In this paper, we
propose a text-guided 3D faces generation method, refer as TG-3DFace, for
generating realistic 3D faces using text guidance. Specifically, we adopt an
unconditional 3D face generation framework and equip it with text conditions,
which learns the text-guided 3D face generation with only text-2D face data. On
top of that, we propose two text-to-face cross-modal alignment techniques,
including the global contrastive learning and the fine-grained alignment
module, to facilitate high semantic consistency between generated 3D faces and
input texts. Besides, we present directional classifier guidance during the
inference process, which encourages creativity for out-of-domain generations.
Compared to the existing methods, TG-3DFace creates more realistic and
aesthetically pleasing 3D faces, boosting 9% multi-view consistency (MVIC) over
Latent3D. The rendered face images generated by TG-3DFace achieve higher FID
and CLIP score than text-to-2D face/image generation models, demonstrating our
superiority in generating realistic and semantic-consistent textures.
- Abstract(参考訳): テキスト記述から3D顔を生成するには、ゲーム、映画、ロボット工学など、数多くの応用がある。
最近の進歩は、無条件の3D顔生成とテキストから3D形状生成の成功を示している。
しかし、テキスト3Dの顔データペアが限られているため、テキスト駆動の3D顔生成は未解決の問題である。
本稿では,テキストガイダンスを用いたリアルな3次元顔を生成するための3次元顔生成手法TG-3DFaceを提案する。
具体的には、無条件の3D顔生成フレームワークを採用し、テキスト2D顔データのみを用いてテキスト誘導された3D顔生成を学習する。
さらに,大域的コントラスト学習と細粒度アライメントモジュールを含む2つのテキスト対面アライメント手法を提案し,生成した3次元顔と入力テキストのセマンティック一貫性を高める。
さらに、推論プロセス中に方向分類器の指導を行い、ドメイン外世代に対する創造性を促進する。
既存の方法と比較して、TG-3DFaceはより現実的で美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを実現し、現実的でセマンティックなテクスチャを生成する上での優位性を実証した。
関連論文リスト
- Controllable 3D Face Generation with Conditional Style Code Diffusion [51.24656496304069]
TEx-Face(TExt & Expression-to-Face)は、タスクを3D GANインバージョン、条件付きスタイルコード拡散、3D Face Decodingという3つのコンポーネントに分割することで、課題に対処する。
FFHQ、CelebA-HQ、CelebA-Dialogで実施された実験は、我々のTEx-Faceの有望なパフォーマンスを実証している。
論文 参考訳(メタデータ) (2023-12-21T15:32:49Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Fake It Without Making It: Conditioned Face Generation for Accurate 3D
Face Reconstruction [5.079602839359523]
本稿では,250Kのフォトリアリスティック画像とそれに対応する形状パラメータと深度マップの大規模な合成データセットを生成する手法について述べる。
人間の顔のFLAME 3D Morphable Model(3DMM)から採取した深度マップ上での安定拡散条件により,人種と性別のバランスがとれるようにデザインされた多様な形状の顔画像を生成することができる。
我々は、3Dの監督や手動の3Dアセット作成を必要とせずに、NoWベンチマーク上での競合性能を実現する、SynthFaceでトレーニングされたディープニューラルネットワークであるControlFaceを提案する。
論文 参考訳(メタデータ) (2023-07-25T16:42:06Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - High-Fidelity 3D Face Generation from Natural Language Descriptions [12.22081892575208]
本論では,1) 記述的テキストアノテーションによる高品質な3次元顔データ不足,2) 記述的言語空間と形状・外観空間との複雑なマッピング関係について論じる。
Describe3Dデータセットは、テキストから3Dの顔生成タスクのためのきめ細かいテキスト記述を備えた最初の大規模データセットである。
まず, 具体的記述と一致する3次元顔を生成するための2段階のフレームワークを提案し, 抽象的記述を用いて3次元形状とテクスチャ空間のパラメータを最適化し, 3次元顔モデルを洗練する。
論文 参考訳(メタデータ) (2023-05-05T06:10:15Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。