論文の概要: VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2403.17001v1
- Date: Mon, 25 Mar 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:05:20.594102
- Title: VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation
- Title(参考訳): VP3D:テキストから3D生成のための2Dビジュアルプロンプトを公開
- Authors: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei,
- Abstract要約: 視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3Dは、テキストから3D生成を促進するために、2D視覚プロンプトの視覚的外観知識を明示的に解放する。
実験の結果,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にすることがわかった。
- 参考スコア(独自算出の注目度): 96.62867261689037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.
- Abstract(参考訳): テキストから3D生成における最近のイノベーションは、暗黙的な3Dモデル(NeRF)のゼロショット学習を可能にするScore Distillation Sampling (SDS)が特徴である。
しかし、現在のSDSベースのモデルは、複雑なテキストプロンプトに苦戦しており、非現実的なテクスチャを持つ歪んだ3Dモデルや、クロスビューの不整合問題をもたらすのが一般的である。
本研究では,2次元視覚的プロンプトにおける視覚的外観知識を明示的に解き明かし,テキスト・トゥ・3D生成を促進する新しい視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3DはテキストプロンプトでSDSだけを監督する代わりに、まず2D拡散モデルを利用して入力テキストから高品質な画像を生成し、視覚的プロンプトとして機能し、明示的な視覚的外観でSDS最適化を強化する。
一方,SDS最適化には,3次元モデルの画像を視覚的に2次元の視覚的プロンプトに整合させ,テキストプロンプトにセマンティックに整合させる,追加の微分可能報酬関数が組み合わさった。
広範にわたる実験により,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にし,より詳細なテクスチャによる視覚的忠実度の向上につながることが示された。
また、自己生成型視覚プロンプトを所定の参照画像に置き換える場合、VP3Dはスタイリングされたテキスト・ツー・3D生成の新しいタスクを起動する。
私たちのプロジェクトページはhttps://vp3d-cvpr24.github.io.comで公開されている。
関連論文リスト
- 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T17:59:30Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。