論文の概要: ED-NeRF: Efficient Text-Guided Editing of 3D Scene with Latent Space NeRF
- arxiv url: http://arxiv.org/abs/2310.02712v2
- Date: Thu, 21 Mar 2024 07:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:06:30.798192
- Title: ED-NeRF: Efficient Text-Guided Editing of 3D Scene with Latent Space NeRF
- Title(参考訳): ED-NeRF:3Dシーンの高効率テキストガイド編集
- Authors: Jangho Park, Gihyun Kwon, Jong Chul Ye,
- Abstract要約: ED-NeRFと呼ばれる新しい3次元NeRF編集手法を提案する。
現実のシーンを、ユニークな精細化層を通して、潜時拡散モデル(LDM)の潜時空間に埋め込む。
このアプローチにより、より高速であるだけでなく、より編集しやすいNeRFバックボーンが得られる。
- 参考スコア(独自算出の注目度): 60.47731445033151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a significant advancement in text-to-image diffusion models, leading to groundbreaking performance in 2D image generation. These advancements have been extended to 3D models, enabling the generation of novel 3D objects from textual descriptions. This has evolved into NeRF editing methods, which allow the manipulation of existing 3D objects through textual conditioning. However, existing NeRF editing techniques have faced limitations in their performance due to slow training speeds and the use of loss functions that do not adequately consider editing. To address this, here we present a novel 3D NeRF editing approach dubbed ED-NeRF by successfully embedding real-world scenes into the latent space of the latent diffusion model (LDM) through a unique refinement layer. This approach enables us to obtain a NeRF backbone that is not only faster but also more amenable to editing compared to traditional image space NeRF editing. Furthermore, we propose an improved loss function tailored for editing by migrating the delta denoising score (DDS) distillation loss, originally used in 2D image editing to the three-dimensional domain. This novel loss function surpasses the well-known score distillation sampling (SDS) loss in terms of suitability for editing purposes. Our experimental results demonstrate that ED-NeRF achieves faster editing speed while producing improved output quality compared to state-of-the-art 3D editing models.
- Abstract(参考訳): 近年,テキスト・画像拡散モデルが大幅に進歩し,2次元画像生成における画期的な性能が向上した。
これらの進歩は3Dモデルに拡張され、テキスト記述から新しい3Dオブジェクトを生成できるようになった。
これは、テキストコンディショニングによる既存の3Dオブジェクトの操作を可能にするNeRF編集方法へと進化した。
しかし、既存のNeRF編集技術は、訓練速度の遅いことと、編集を適切に考慮しない損失関数の使用により、その性能に限界に直面している。
そこで本研究では,LDM(潜伏拡散モデル)の潜伏空間に現実のシーンを埋め込むことにより,ED-NeRFと呼ばれる新しい3次元NeRF編集手法を提案する。
このアプローチにより、従来の画像空間のNeRF編集に比べて、より高速であるだけでなく、より編集しやすいNeRFバックボーンが得られる。
さらに,デルタ復調点(DDS)蒸留損失を3次元領域への2次元画像編集に用いた改良型損失関数を提案する。
この新たな損失関数は、よく知られたスコア蒸留サンプリング(SDS)の損失を、編集目的に適した点において上回る。
実験により, ED-NeRFは, 最先端の3D編集モデルと比較して, 出力品質の向上を図りながら, 高速な編集速度を実現することが示された。
関連論文リスト
- DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation [17.930032337081673]
テキスト駆動3D編集作業において, スコア蒸留サンプリング(SDS)が有効なフレームワークとして登場した。
我々は,これらのサンプリングダイナミクスをSDSフレームワークで検討する新しいフレームワークであるDreamCatalystを提案する。
提案手法は,(1)現在最先端のNeRF編集手法の23倍の速さでシーンを編集する高速モード,(2)これらの手法の約8倍の速さで結果を生成する高品質モードの2つのモードを提供する。
論文 参考訳(メタデータ) (2024-07-16T05:26:14Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DATENeRF: Depth-Aware Text-based Editing of NeRFs [49.08848777124736]
我々は、NeRFシーンの深度情報を利用して異なる画像に2D編集を分散する塗装手法を提案する。
以上の結果から,本手法は既存のテキスト駆動型NeRFシーン編集手法よりも,より一貫性があり,ライフライクで,詳細な編集が可能であることが判明した。
論文 参考訳(メタデータ) (2024-04-06T06:48:16Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models [36.236190350126826]
本稿では,RGB画像を入力として取り出し,ニューラルシーンの3Dコンテンツを変更可能な新しいフレームワークを提案する。
具体的には,対象オブジェクトを意味的に選択し,事前学習した拡散モデルを用いてNeRFモデルを誘導し,新しい3Dオブジェクトを生成する。
実験の結果,本アルゴリズムは,異なるテキストプロンプト下でのNeRFの3次元オブジェクトの編集に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T04:49:31Z) - FaceDNeRF: Semantics-Driven Face Reconstruction, Prompt Editing and
Relighting with Diffusion Models [67.17713009917095]
単一画像から高品質な顔NeRFを再構成する新しい生成法であるFace Diffusion NeRF(FaceDNeRF)を提案する。
慎重に設計された照明とID保存損失により、FaceDNeRFは編集プロセスの非並列制御を提供する。
論文 参考訳(メタデータ) (2023-06-01T15:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。