Fugu-MT 論文翻訳(概要): CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout

論文の概要: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout

arxiv url: http://arxiv.org/abs/2303.13843v1
Date: Fri, 24 Mar 2023 07:37:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 15:27:55.472147
Title: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout
Title（参考訳）: CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF
Authors: Yiqi Lin, Haotian Bai, Sijia Li, Haonan Lu, Xiaodong Lin, Hui Xiong, Lin Wang
Abstract要約: 我々は,編集可能な3Dシーンレイアウトを明示的に組み込んで,単一のオブジェクト(ローカル)と全体(グローバル)レベルで効果的なガイダンスを提供する,CompoNeRFと呼ばれる新しいフレームワークを提案する。我々のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。
参考スコア（独自算出の注目度）: 20.333860991725683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research endeavors have shown that combining neural radiance fields (NeRFs) with pre-trained diffusion models holds great potential for text-to-3D generation.However, a hurdle is that they often encounter guidance collapse when rendering complex scenes from multi-object texts. Because the text-to-image diffusion models are inherently unconstrained, making them less competent to accurately associate object semantics with specific 3D structures. To address this issue, we propose a novel framework, dubbed CompoNeRF, that explicitly incorporates an editable 3D scene layout to provide effective guidance at the single object (i.e., local) and whole scene (i.e., global) levels. Firstly, we interpret the multi-object text as an editable 3D scene layout containing multiple local NeRFs associated with the object-specific 3D box coordinates and text prompt, which can be easily collected from users. Then, we introduce a global MLP to calibrate the compositional latent features from local NeRFs, which surprisingly improves the view consistency across different local NeRFs. Lastly, we apply the text guidance on global and local levels through their corresponding views to avoid guidance ambiguity. This way, our CompoNeRF allows for flexible scene editing and re-composition of trained local NeRFs into a new scene by manipulating the 3D layout or text prompt. Leveraging the open-source Stable Diffusion model, our CompoNeRF can generate faithful and editable text-to-3D results while opening a potential direction for text-guided multi-object composition via the editable 3D scene layout.
Abstract（参考訳）: 最近の研究により、ニューラルネットワークの放射場(nerfs)と事前学習された拡散モデルの組み合わせは、テキストから3dを生成する上で大きな可能性を秘めていることが示されている。テキストと画像の拡散モデルは本質的に制約がなく、オブジェクトのセマンティクスと特定の3D構造を正確に関連付ける能力が低い。この問題に対処するため,我々はCompoNeRFと呼ばれる新しいフレームワークを提案し,編集可能な3Dシーンレイアウトを明示的に組み込んで,単一のオブジェクト(ローカル)と全シーン(グローバル)レベルで効果的なガイダンスを提供する。まず、複数オブジェクトのテキストを、オブジェクト固有の3Dボックス座標とテキストプロンプトに関連付けられた複数のローカルNeRFを含む編集可能な3Dシーンレイアウトとして解釈する。次に,局所的NeRFから合成潜時特徴を校正するグローバルMPPを導入し,異なる局所的NeRF間のビュー一貫性を驚くほど向上させる。最後に,グローバルレベルとローカルレベルに関するテキストガイダンスを,対応するビューを通じて適用することで,ガイダンスあいまいさを回避できる。このようにして、当社のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。オープンソースの安定拡散モデルを利用することで,編集可能な3dシーンレイアウトを通じて,テキスト誘導型多目的合成の潜在的方向を開放しつつ,忠実かつ編集可能なテキストから3dへの結果を生成することができる。

関連論文リスト

SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。 SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文参考訳（メタデータ） (2024-06-25T09:17:35Z)
${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文参考訳（メタデータ） (2024-05-08T12:25:21Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-12-07T12:10:05Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文参考訳（メタデータ） (2023-09-26T12:01:13Z)
Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields [26.85599376826124]
我々は,既存のNeRFシーンに対する特定の関心領域を編集するフレームワークであるBlended-NeRFを提案する。入力シーンに3次元ROIボックスを配置することで局所的な編集を可能にし、ROI内で合成されたコンテンツを既存のシーンとブレンドする。シーンに新しいオブジェクトを追加すること、既存のオブジェクトを削除/変更すること、テクスチャ変換など、いくつかの3D編集アプリケーションのためのフレームワークを示す。
論文参考訳（メタデータ） (2023-06-22T09:34:55Z)
Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文参考訳（メタデータ） (2023-03-21T22:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。