論文の概要: TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
- arxiv url: http://arxiv.org/abs/2309.17175v2
- Date: Thu, 14 Mar 2024 07:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:42:46.533137
- Title: TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
- Title(参考訳): TextField3D: ノイズの多いテキストフィールドによるオープン語彙3D生成の実現を目指して
- Authors: Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson W. H. Lau, Wangmeng Zuo,
- Abstract要約: 条件付き3D生成モデルであるTextField3Dを導入する。
テキストプロンプトを直接入力として使用するのではなく、与えられたテキストプロンプトの潜在空間に動的ノイズを注入することを提案する。
テクスチャとテクスチャの両面で条件生成を導くため、テキスト3D判別器とテキスト2.5D判別器でマルチモーダル識別を構築する。
- 参考スコア(独自算出の注目度): 98.62319447738332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works learn 3D representation explicitly under text-3D guidance. However, limited text-3D data restricts the vocabulary scale and text control of generations. Generators may easily fall into a stereotype concept for certain text prompts, thus losing open-vocabulary generation ability. To tackle this issue, we introduce a conditional 3D generative model, namely TextField3D. Specifically, rather than using the text prompts as input directly, we suggest to inject dynamic noise into the latent space of given text prompts, i.e., Noisy Text Fields (NTFs). In this way, limited 3D data can be mapped to the appropriate range of textual latent space that is expanded by NTFs. To this end, an NTFGen module is proposed to model general text latent code in noisy fields. Meanwhile, an NTFBind module is proposed to align view-invariant image latent code to noisy fields, further supporting image-conditional 3D generation. To guide the conditional generation in both geometry and texture, multi-modal discrimination is constructed with a text-3D discriminator and a text-2.5D discriminator. Compared to previous methods, TextField3D includes three merits: 1) large vocabulary, 2) text consistency, and 3) low latency. Extensive experiments demonstrate that our method achieves a potential open-vocabulary 3D generation capability.
- Abstract(参考訳): 最近の研究はテキスト3Dガイダンスに基づいて3D表現を明示的に学習している。
しかし、制限されたテキスト3Dデータは、世代ごとの語彙スケールとテキストコントロールを制限する。
ジェネレータは特定のテキストプロンプトのステレオタイプ概念に容易に陥り、オープン語彙生成能力を失う。
この問題に対処するために,条件付き3D生成モデルであるTextField3Dを導入する。
具体的には、テキストプロンプトを直接入力として使用するのではなく、与えられたテキストプロンプトの潜在空間、すなわちノイズテキストフィールド(NTF)に動的ノイズを注入することを提案する。
このようにして、NTFによって拡張されるテキスト潜在空間の適切な範囲に、限られた3Dデータをマッピングすることができる。
この目的のために、NTFGenモジュールはノイズ場における一般的なテキスト潜在コードをモデル化するために提案される。
一方、NTFBindモジュールは、ビュー不変の遅延符号をノイズ場に整列させ、さらに画像条件3D生成をサポートする。
テクスチャとテクスチャの両方において条件生成を導くため、テキスト3D判別器とテキスト2.5D判別器でマルチモーダル識別を構築する。
以前の方法と比較して、TextField3Dには3つのメリットがある。
1)大語彙
2)テキストの一貫性,および
3)低レイテンシ。
広汎な実験により,本手法が開語彙3次元生成能力を実現することを示す。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - WordRobe: Text-Guided Generation of Textured 3D Garments [30.614451083408266]
WordRobeは、ユーザフレンドリーなテキストプロンプトから非ポーズでテクスチャ化された3Dメッシュを生成するための新しいフレームワークである。
本研究では,3次元衣服空間の学習,衣服合成,テクスチャ合成において,現在のSOTAよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-26T09:44:34Z) - Text-to-3D Shape Generation [18.76771062964711]
テキストから3Dの形状生成が可能な計算システムは、一般的な想像力を魅了している。
本稿では,背景文献を要約するテキスト・ツー・3次元形状生成を可能にする基礎技術と手法について調査する。
そこで本研究では,テキスト・ツー・3次元形状生成に関する最近の研究の体系的分類を,必要な監視データの種類に基づいて導出した。
論文 参考訳(メタデータ) (2024-03-20T04:03:44Z) - HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation [55.95329424826433]
テキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。
双曲空間におけるテキストと3次元形状の階層的表現を学習する。
本手法は,テキスト・ツー・シェイプ生成のための双曲的階層表現を初めて探求する手法である。
論文 参考訳(メタデータ) (2024-03-01T08:57:28Z) - Learning Continuous 3D Words for Text-to-Image Generation [44.210565557606465]
本稿では,画像中の複数の属性の微粒化制御をユーザに提供するアプローチを提案する。
本手法は,複数の連続した3Dワードとテキスト記述を同時に行うことで,画像生成を条件付けることができる。
論文 参考訳(メタデータ) (2024-02-13T18:34:10Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。