論文の概要: Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2305.11588v1
- Date: Fri, 19 May 2023 10:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:58:25.811154
- Title: Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields
- Title(参考訳): Text2NeRF:ニューラルラジアンスフィールドを用いたテキスト駆動3次元シーン生成
- Authors: Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, and Jing Liao
- Abstract要約: テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
そこで我々は,NeRFを3次元表現として採用し,事前学習したテキスト・画像拡散モデルを活用する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
- 参考スコア(独自算出の注目度): 25.1802999588962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven 3D scene generation is widely applicable to video gaming, film
industry, and metaverse applications that have a large demand for 3D scenes.
However, existing text-to-3D generation methods are limited to producing 3D
objects with simple geometries and dreamlike styles that lack realism. In this
work, we present Text2NeRF, which is able to generate a wide range of 3D scenes
with complicated geometric structures and high-fidelity textures purely from a
text prompt. To this end, we adopt NeRF as the 3D representation and leverage a
pre-trained text-to-image diffusion model to constrain the 3D reconstruction of
the NeRF to reflect the scene description. Specifically, we employ the
diffusion model to infer the text-related image as the content prior and use a
monocular depth estimation method to offer the geometric prior. Both content
and geometric priors are utilized to update the NeRF model. To guarantee
textured and geometric consistency between different views, we introduce a
progressive scene inpainting and updating strategy for novel view synthesis of
the scene. Our method requires no additional training data but only a natural
language description of the scene as the input. Extensive experiments
demonstrate that our Text2NeRF outperforms existing methods in producing
photo-realistic, multi-view consistent, and diverse 3D scenes from a variety of
natural language prompts.
- Abstract(参考訳): テキスト駆動の3dシーン生成は、ビデオゲーム、映画産業、そして3dシーンに対する大きな需要を持つメタバースアプリケーションに適用できる。
しかし、既存のtext-to-3d生成法は、現実性に欠ける単純なジオメトリや夢のようなスタイルを持つ3dオブジェクトの生成に限定されている。
本稿では,テキストプロンプトから,複雑な幾何学的構造と高精細なテクスチャを持つ広い範囲の3dシーンを生成できるtext2nerfを提案する。
そこで我々は,NeRFを3次元表現として採用し,事前学習したテキスト・画像拡散モデルを用いて,NeRFの3次元再構成を制約し,シーン記述を反映する。
具体的には,テキスト関連画像を内容先として推定するために拡散モデルを用い,幾何学的先行を提供するために単眼深度推定法を用いる。
コンテンツと幾何学的事前情報の両方を用いてNeRFモデルを更新する。
異なる視点間のテクスチャと幾何学的一貫性を保証するため,新たな視点合成のためのプログレッシブ・シーンのインペインティングと更新戦略を提案する。
本手法は,追加の訓練データを必要としないが,入力としてシーンの自然言語記述のみを必要とする。
我々のText2NeRFは、さまざまな自然言語プロンプトからフォトリアリスティック、マルチビュー、多様な3Dシーンを生成する既存の手法よりも優れています。
関連論文リスト
- SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - Fantasia3D: Disentangling Geometry and Appearance for High-quality
Text-to-3D Content Creation [45.69270771487455]
本稿では,高品質なテキスト・ツー・3Dコンテンツ作成のためのFantasia3Dの新たな手法を提案する。
Fantasia3Dの鍵となるのは、幾何学と外観の混乱したモデリングと学習である。
我々のフレームワークは、人気のあるグラフィックスエンジンとより互換性があり、生成した3Dアセットのリライティング、編集、物理シミュレーションをサポートしています。
論文 参考訳(メタデータ) (2023-03-24T09:30:09Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。