論文の概要: Edit-DiffNeRF: Editing 3D Neural Radiance Fields using 2D Diffusion
Model
- arxiv url: http://arxiv.org/abs/2306.09551v1
- Date: Thu, 15 Jun 2023 23:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:27:25.387182
- Title: Edit-DiffNeRF: Editing 3D Neural Radiance Fields using 2D Diffusion
Model
- Title(参考訳): Edit-DiffNeRF:2次元拡散モデルを用いた3次元ニューラルラジアンスフィールドの編集
- Authors: Lu Yu, Wei Xiang, Kang Han
- Abstract要約: 事前学習した拡散モデルとニューラルラジアンス場(NeRF)の組み合わせは,テキストから3D生成への有望なアプローチとして現れている。
本研究では,凍結拡散モデルと,拡散モデルの潜在意味空間を編集するデルタモジュールと,NeRFからなるEdit-DiffNeRFフレームワークを提案する。
提案手法は実世界の3Dシーンを効果的に編集し,25%の改善が得られた。
- 参考スコア(独自算出の注目度): 11.05302598034426
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has demonstrated that the combination of pretrained diffusion
models with neural radiance fields (NeRFs) has emerged as a promising approach
for text-to-3D generation. Simply coupling NeRF with diffusion models will
result in cross-view inconsistency and degradation of stylized view syntheses.
To address this challenge, we propose the Edit-DiffNeRF framework, which is
composed of a frozen diffusion model, a proposed delta module to edit the
latent semantic space of the diffusion model, and a NeRF. Instead of training
the entire diffusion for each scene, our method focuses on editing the latent
semantic space in frozen pretrained diffusion models by the delta module. This
fundamental change to the standard diffusion framework enables us to make
fine-grained modifications to the rendered views and effectively consolidate
these instructions in a 3D scene via NeRF training. As a result, we are able to
produce an edited 3D scene that faithfully aligns to input text instructions.
Furthermore, to ensure semantic consistency across different viewpoints, we
propose a novel multi-view semantic consistency loss that extracts a latent
semantic embedding from the input view as a prior, and aim to reconstruct it in
different views. Our proposed method has been shown to effectively edit
real-world 3D scenes, resulting in 25% improvement in the alignment of the
performed 3D edits with text instructions compared to prior work.
- Abstract(参考訳): 近年の研究では、事前学習された拡散モデルとニューラルレイディアンス場(NeRF)の組み合わせが、テキストから3D生成への有望なアプローチとして現れている。
単純なNeRFと拡散モデルとの結合は、スタイリングされたビュー合成の不整合と劣化をもたらす。
本稿では,この課題に対処するために,凍結拡散モデルと,拡散モデルの潜在意味空間を編集するデルタモジュールと,nerfからなるedit-diffnerfフレームワークを提案する。
本手法は,各シーンの拡散全体をトレーニングする代わりに,デルタモジュールによる凍結事前学習拡散モデルにおける潜時意味空間の編集に重点を置いている。
この標準拡散フレームワークの根本的な変更により、レンダリングされたビューを微調整し、NeRFトレーニングを通じて3Dシーンでこれらの命令を効果的に統合することができる。
その結果,テキストの入力に忠実に整合する3Dシーンを編集できることがわかった。
さらに,異なる視点にまたがる意味的一貫性を確保するために,先述した入力視点から潜在意味的埋め込みを抽出し,異なる視点で再構成することを目的とした,新しい多視点意味的一貫性損失を提案する。
提案手法は実世界の3Dシーンを効果的に編集し, 従来の作業に比べて3D編集とテキスト・インストラクションのアライメントが25%向上した。
関連論文リスト
- NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models [36.236190350126826]
本稿では,RGB画像を入力として取り出し,ニューラルシーンの3Dコンテンツを変更可能な新しいフレームワークを提案する。
具体的には,対象オブジェクトを意味的に選択し,事前学習した拡散モデルを用いてNeRFモデルを誘導し,新しい3Dオブジェクトを生成する。
実験の結果,本アルゴリズムは,異なるテキストプロンプト下でのNeRFの3次元オブジェクトの編集に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T04:49:31Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors [24.05480789681139]
本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
論文 参考訳(メタデータ) (2022-12-06T19:00:07Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。