論文の概要: LatentEditor: Text Driven Local Editing of 3D Scenes
- arxiv url: http://arxiv.org/abs/2312.09313v2
- Date: Mon, 18 Dec 2023 02:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:38:41.715629
- Title: LatentEditor: Text Driven Local Editing of 3D Scenes
- Title(参考訳): LatentEditor: 3Dシーンのテキスト駆動ローカル編集
- Authors: Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen
- Abstract要約: テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
- 参考スコア(独自算出の注目度): 9.619713456771603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural fields have made significant strides in view synthesis and scene
reconstruction, editing them poses a formidable challenge due to their implicit
encoding of geometry and texture information from multi-view inputs. In this
paper, we introduce \textsc{LatentEditor}, an innovative framework designed to
empower users with the ability to perform precise and locally controlled
editing of neural fields using text prompts. Leveraging denoising diffusion
models, we successfully embed real-world scenes into the latent space,
resulting in a faster and more adaptable NeRF backbone for editing compared to
traditional methods. To enhance editing precision, we introduce a delta score
to calculate the 2D mask in the latent space that serves as a guide for local
modifications while preserving irrelevant regions. Our novel pixel-level
scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the
disparity between IP2P conditional and unconditional noise predictions in the
latent space. The edited latents conditioned on the 2D masks are then
iteratively updated in the training set to achieve 3D local editing. Our
approach achieves faster editing speeds and superior output quality compared to
existing 3D editing models, bridging the gap between textual instructions and
high-quality 3D scene editing in latent space. We show the superiority of our
approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art.
- Abstract(参考訳): ニューラルネットワークは、画像合成とシーン再構成において大きな進歩を遂げてきたが、それらを編集することは、多視点入力から幾何やテクスチャ情報を暗黙的にエンコードするため、非常に難しい課題となる。
本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。
拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。
編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。
InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。
2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。
提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。
LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields [45.020585071312475]
ViCA-NeRFはテキストによる3D編集のための最初のビュー一貫性対応方式である。
我々は、異なるビューにまたがって編集情報を明示的に伝達する正規化の2つの源を利用する。
論文 参考訳(メタデータ) (2024-02-01T18:59:09Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing [61.014328598895524]
textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。
幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
論文 参考訳(メタデータ) (2023-12-12T03:04:08Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - BluNF: Blueprint Neural Field [10.110885977110447]
本稿では,これらの編集問題に対処するため,Blueprint Neural Field (BluNF) と呼ばれる新しいアプローチを提案する。
BluNFは、堅牢でユーザフレンドリな2Dブループリントを提供し、直感的なシーン編集を可能にする。
直感的なクリック・アンド・チェンジ機構により,BluNFの編集性を示す。
論文 参考訳(メタデータ) (2023-09-07T17:53:25Z) - DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [115.07896366760876]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。
DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文 参考訳(メタデータ) (2023-06-23T11:53:43Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。