論文の概要: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- arxiv url: http://arxiv.org/abs/2303.13843v1
- Date: Fri, 24 Mar 2023 07:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:27:55.472147
- Title: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- Title(参考訳): CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF
- Authors: Yiqi Lin, Haotian Bai, Sijia Li, Haonan Lu, Xiaodong Lin, Hui Xiong,
Lin Wang
- Abstract要約: 我々は,編集可能な3Dシーンレイアウトを明示的に組み込んで,単一のオブジェクト(ローカル)と全体(グローバル)レベルで効果的なガイダンスを提供する,CompoNeRFと呼ばれる新しいフレームワークを提案する。
我々のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。
- 参考スコア(独自算出の注目度): 20.333860991725683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research endeavors have shown that combining neural radiance fields
(NeRFs) with pre-trained diffusion models holds great potential for text-to-3D
generation.However, a hurdle is that they often encounter guidance collapse
when rendering complex scenes from multi-object texts. Because the
text-to-image diffusion models are inherently unconstrained, making them less
competent to accurately associate object semantics with specific 3D structures.
To address this issue, we propose a novel framework, dubbed CompoNeRF, that
explicitly incorporates an editable 3D scene layout to provide effective
guidance at the single object (i.e., local) and whole scene (i.e., global)
levels. Firstly, we interpret the multi-object text as an editable 3D scene
layout containing multiple local NeRFs associated with the object-specific 3D
box coordinates and text prompt, which can be easily collected from users.
Then, we introduce a global MLP to calibrate the compositional latent features
from local NeRFs, which surprisingly improves the view consistency across
different local NeRFs. Lastly, we apply the text guidance on global and local
levels through their corresponding views to avoid guidance ambiguity. This way,
our CompoNeRF allows for flexible scene editing and re-composition of trained
local NeRFs into a new scene by manipulating the 3D layout or text prompt.
Leveraging the open-source Stable Diffusion model, our CompoNeRF can generate
faithful and editable text-to-3D results while opening a potential direction
for text-guided multi-object composition via the editable 3D scene layout.
- Abstract(参考訳): 最近の研究により、ニューラルネットワークの放射場(nerfs)と事前学習された拡散モデルの組み合わせは、テキストから3dを生成する上で大きな可能性を秘めていることが示されている。
テキストと画像の拡散モデルは本質的に制約がなく、オブジェクトのセマンティクスと特定の3D構造を正確に関連付ける能力が低い。
この問題に対処するため,我々はCompoNeRFと呼ばれる新しいフレームワークを提案し,編集可能な3Dシーンレイアウトを明示的に組み込んで,単一のオブジェクト(ローカル)と全シーン(グローバル)レベルで効果的なガイダンスを提供する。
まず、複数オブジェクトのテキストを、オブジェクト固有の3Dボックス座標とテキストプロンプトに関連付けられた複数のローカルNeRFを含む編集可能な3Dシーンレイアウトとして解釈する。
次に,局所的NeRFから合成潜時特徴を校正するグローバルMPPを導入し,異なる局所的NeRF間のビュー一貫性を驚くほど向上させる。
最後に,グローバルレベルとローカルレベルに関するテキストガイダンスを,対応するビューを通じて適用することで,ガイダンスあいまいさを回避できる。
このようにして、当社のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。
オープンソースの安定拡散モデルを利用することで,編集可能な3dシーンレイアウトを通じて,テキスト誘導型多目的合成の潜在的方向を開放しつつ,忠実かつ編集可能なテキストから3dへの結果を生成することができる。
関連論文リスト
- SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - ${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-08T12:25:21Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Blended-NeRF: Zero-Shot Object Generation and Blending in Existing
Neural Radiance Fields [26.85599376826124]
我々は,既存のNeRFシーンに対する特定の関心領域を編集するフレームワークであるBlended-NeRFを提案する。
入力シーンに3次元ROIボックスを配置することで局所的な編集を可能にし、ROI内で合成されたコンテンツを既存のシーンとブレンドする。
シーンに新しいオブジェクトを追加すること、既存のオブジェクトを削除/変更すること、テクスチャ変換など、いくつかの3D編集アプリケーションのためのフレームワークを示す。
論文 参考訳(メタデータ) (2023-06-22T09:34:55Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。