論文の概要: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- arxiv url: http://arxiv.org/abs/2303.13843v2
- Date: Fri, 15 Sep 2023 10:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 18:37:18.152861
- Title: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- Title(参考訳): CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF
- Authors: Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong
Lin, Lin Wang
- Abstract要約: オブジェクト(ローカル)とシーン(グローバル)レベルで効果的なガイダンスを提供するために,編集可能な3Dシーンレイアウトを明示的に組み込んだ新しいフレームワークCompoNeRFを提案する。
我々のCompoNeRFは、テキスト誘導多目的合成の潜在的方向を開きながら、忠実で編集可能なテキストから3D結果を生成することができる。
特に、私たちのCompoNeRFは、CLIPスコアメトリックに基づいて、少なくとも54%のパフォーマンス向上を達成できます。
- 参考スコア(独自算出の注目度): 14.034561752463796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research endeavors have shown that combining neural radiance fields
(NeRFs) with pre-trained diffusion models holds great potential for text-to-3D
generation. However, a hurdle is that they often encounter guidance collapse
when rendering multi-object scenes with relatively long sentences.
Specifically, text-to-image diffusion models are inherently unconstrained,
making them less competent to accurately associate object semantics with 3D
structures. To address it, we propose a novel framework, dubbed CompoNeRF, to
explicitly incorporates an editable 3D scene layout to provide effective
guidance at the object (i.e., local) and scene (i.e., global) levels. Firstly,
we interpret the multi-object text as an editable 3D scene layout containing
multiple local NeRFs associated with the object-specific 3D boxes and text
prompt. Then, we introduce a composition module to calibrate the latent
features from local NeRFs, which surprisingly improves the view consistency
across different local NeRFs. Lastly, we apply text guidance on global and
local levels through their corresponding views to avoid guidance ambiguity.
Additionally, NeRFs can be decomposed and cached for composing other scenes
with fine-tuning. This way, our CompoNeRF allows for flexible scene editing and
re-composition of trained local NeRFs into a new scene by manipulating the 3D
layout or text prompt. Leveraging the open-source Stable Diffusion model, our
CompoNeRF can generate faithful and editable text-to-3D results while opening a
potential direction for text-guided multi-object composition via the editable
3D scene layout. Notably, our CompoNeRF can achieve at most 54% performance
gain based on the CLIP score metric. Code is available at https://.
- Abstract(参考訳): 近年の研究では、NeRF(Near Radiance Field)と事前学習した拡散モデルを組み合わせることが、テキストから3D生成に大きな可能性を示唆している。
しかし、比較的長い文で多目的シーンをレンダリングする際に、しばしば誘導崩壊に遭遇するハードルがある。
具体的には、テキストと画像の拡散モデルは本質的に制約がなく、オブジェクトのセマンティクスと3D構造を正確に関連付ける能力が低い。
そこで我々は,編集可能な3dシーンレイアウトを明示的に組み込んで,オブジェクト(ローカル)とシーン(グローバル)の効果的なガイダンスを提供する,componerfと呼ばれる新しいフレームワークを提案する。
まず、オブジェクト固有の3Dボックスとテキストプロンプトに関連する複数のローカルNeRFを含む編集可能な3Dシーンレイアウトとして、多目的テキストを解釈する。
次に,局所的なNeRFからの潜伏特徴を校正する合成モジュールを導入し,異なる局所的なNeRF間の視界の整合性を驚くほど改善する。
最後に,グローバルレベルとローカルレベルに対するテキストガイダンスを,対応するビューを通じて適用することで,ガイダンスあいまいさを回避できる。
さらに、NeRFは分解され、微調整で他のシーンを構成するためにキャッシュされる。
このようにして、当社のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。
オープンソースの安定拡散モデルを利用することで,編集可能な3dシーンレイアウトを通じて,テキスト誘導型多目的合成の潜在的方向を開放しつつ,忠実かつ編集可能なテキストから3dへの結果を生成することができる。
特に、私たちのCompoNeRFは、CLIPスコアメトリックに基づいて、少なくとも54%のパフォーマンス向上を達成できます。
コードはhttps://.com/で入手できる。
関連論文リスト
- SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - ${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-08T12:25:21Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Blended-NeRF: Zero-Shot Object Generation and Blending in Existing
Neural Radiance Fields [26.85599376826124]
我々は,既存のNeRFシーンに対する特定の関心領域を編集するフレームワークであるBlended-NeRFを提案する。
入力シーンに3次元ROIボックスを配置することで局所的な編集を可能にし、ROI内で合成されたコンテンツを既存のシーンとブレンドする。
シーンに新しいオブジェクトを追加すること、既存のオブジェクトを削除/変更すること、テクスチャ変換など、いくつかの3D編集アプリケーションのためのフレームワークを示す。
論文 参考訳(メタデータ) (2023-06-22T09:34:55Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。