論文の概要: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- arxiv url: http://arxiv.org/abs/2303.13843v2
- Date: Fri, 15 Sep 2023 10:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 18:37:18.152861
- Title: CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D
Scene Layout
- Title(参考訳): CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF
- Authors: Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong
Lin, Lin Wang
- Abstract要約: オブジェクト(ローカル)とシーン(グローバル)レベルで効果的なガイダンスを提供するために,編集可能な3Dシーンレイアウトを明示的に組み込んだ新しいフレームワークCompoNeRFを提案する。
我々のCompoNeRFは、テキスト誘導多目的合成の潜在的方向を開きながら、忠実で編集可能なテキストから3D結果を生成することができる。
特に、私たちのCompoNeRFは、CLIPスコアメトリックに基づいて、少なくとも54%のパフォーマンス向上を達成できます。
- 参考スコア(独自算出の注目度): 14.034561752463796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research endeavors have shown that combining neural radiance fields
(NeRFs) with pre-trained diffusion models holds great potential for text-to-3D
generation. However, a hurdle is that they often encounter guidance collapse
when rendering multi-object scenes with relatively long sentences.
Specifically, text-to-image diffusion models are inherently unconstrained,
making them less competent to accurately associate object semantics with 3D
structures. To address it, we propose a novel framework, dubbed CompoNeRF, to
explicitly incorporates an editable 3D scene layout to provide effective
guidance at the object (i.e., local) and scene (i.e., global) levels. Firstly,
we interpret the multi-object text as an editable 3D scene layout containing
multiple local NeRFs associated with the object-specific 3D boxes and text
prompt. Then, we introduce a composition module to calibrate the latent
features from local NeRFs, which surprisingly improves the view consistency
across different local NeRFs. Lastly, we apply text guidance on global and
local levels through their corresponding views to avoid guidance ambiguity.
Additionally, NeRFs can be decomposed and cached for composing other scenes
with fine-tuning. This way, our CompoNeRF allows for flexible scene editing and
re-composition of trained local NeRFs into a new scene by manipulating the 3D
layout or text prompt. Leveraging the open-source Stable Diffusion model, our
CompoNeRF can generate faithful and editable text-to-3D results while opening a
potential direction for text-guided multi-object composition via the editable
3D scene layout. Notably, our CompoNeRF can achieve at most 54% performance
gain based on the CLIP score metric. Code is available at https://.
- Abstract(参考訳): 近年の研究では、NeRF(Near Radiance Field)と事前学習した拡散モデルを組み合わせることが、テキストから3D生成に大きな可能性を示唆している。
しかし、比較的長い文で多目的シーンをレンダリングする際に、しばしば誘導崩壊に遭遇するハードルがある。
具体的には、テキストと画像の拡散モデルは本質的に制約がなく、オブジェクトのセマンティクスと3D構造を正確に関連付ける能力が低い。
そこで我々は,編集可能な3dシーンレイアウトを明示的に組み込んで,オブジェクト(ローカル)とシーン(グローバル)の効果的なガイダンスを提供する,componerfと呼ばれる新しいフレームワークを提案する。
まず、オブジェクト固有の3Dボックスとテキストプロンプトに関連する複数のローカルNeRFを含む編集可能な3Dシーンレイアウトとして、多目的テキストを解釈する。
次に,局所的なNeRFからの潜伏特徴を校正する合成モジュールを導入し,異なる局所的なNeRF間の視界の整合性を驚くほど改善する。
最後に,グローバルレベルとローカルレベルに対するテキストガイダンスを,対応するビューを通じて適用することで,ガイダンスあいまいさを回避できる。
さらに、NeRFは分解され、微調整で他のシーンを構成するためにキャッシュされる。
このようにして、当社のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。
オープンソースの安定拡散モデルを利用することで,編集可能な3dシーンレイアウトを通じて,テキスト誘導型多目的合成の潜在的方向を開放しつつ,忠実かつ編集可能なテキストから3dへの結果を生成することができる。
特に、私たちのCompoNeRFは、CLIPスコアメトリックに基づいて、少なくとも54%のパフォーマンス向上を達成できます。
コードはhttps://.com/で入手できる。
関連論文リスト
- ${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-08T12:25:21Z) - NeRF-Insert: 3D Local Editing with Multimodal Control Signals [97.91172669905578]
NeRF-InsertはNeRF編集フレームワークで、ユーザーは柔軟なレベルのコントロールで高品質なローカル編集ができる。
我々は,シーン編集を塗装上の問題として捉え,シーンのグローバルな構造を保たせるようにした。
以上の結果から,視覚的品質が向上し,元のNeRFとの整合性も向上した。
論文 参考訳(メタデータ) (2024-04-30T02:04:49Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Blending-NeRF: Text-Driven Localized Editing in Neural Radiance Fields [16.375242125946965]
我々は,2つのNeRFネットワーク – 事前学習されたNeRFと編集可能なNeRF – で構成される,新しいNeRFベースモデルであるBlending-NeRFを提案する。
我々はBlending-NeRFがテキストで局所化されたターゲット領域を適切に編集できる新しいブレンディング操作を導入した。
実験の結果,Blending-NeRFはテキストプロンプトから自然および局所的に3Dオブジェクトを生成することがわかった。
論文 参考訳(メタデータ) (2023-08-23T07:46:44Z) - Blended-NeRF: Zero-Shot Object Generation and Blending in Existing
Neural Radiance Fields [26.85599376826124]
我々は,既存のNeRFシーンに対する特定の関心領域を編集するフレームワークであるBlended-NeRFを提案する。
入力シーンに3次元ROIボックスを配置することで局所的な編集を可能にし、ROI内で合成されたコンテンツを既存のシーンとブレンドする。
シーンに新しいオブジェクトを追加すること、既存のオブジェクトを削除/変更すること、テクスチャ変換など、いくつかの3D編集アプリケーションのためのフレームワークを示す。
論文 参考訳(メタデータ) (2023-06-22T09:34:55Z) - RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models [36.236190350126826]
本稿では,RGB画像を入力として取り出し,ニューラルシーンの3Dコンテンツを変更可能な新しいフレームワークを提案する。
具体的には,対象オブジェクトを意味的に選択し,事前学習した拡散モデルを用いてNeRFモデルを誘導し,新しい3Dオブジェクトを生成する。
実験の結果,本アルゴリズムは,異なるテキストプロンプト下でのNeRFの3次元オブジェクトの編集に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T04:49:31Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。