論文の概要: LatentEditor: Text Driven Local Editing of 3D Scenes
- arxiv url: http://arxiv.org/abs/2312.09313v2
- Date: Mon, 18 Dec 2023 02:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:38:41.715629
- Title: LatentEditor: Text Driven Local Editing of 3D Scenes
- Title(参考訳): LatentEditor: 3Dシーンのテキスト駆動ローカル編集
- Authors: Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen
- Abstract要約: テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
- 参考スコア(独自算出の注目度): 9.619713456771603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural fields have made significant strides in view synthesis and scene
reconstruction, editing them poses a formidable challenge due to their implicit
encoding of geometry and texture information from multi-view inputs. In this
paper, we introduce \textsc{LatentEditor}, an innovative framework designed to
empower users with the ability to perform precise and locally controlled
editing of neural fields using text prompts. Leveraging denoising diffusion
models, we successfully embed real-world scenes into the latent space,
resulting in a faster and more adaptable NeRF backbone for editing compared to
traditional methods. To enhance editing precision, we introduce a delta score
to calculate the 2D mask in the latent space that serves as a guide for local
modifications while preserving irrelevant regions. Our novel pixel-level
scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the
disparity between IP2P conditional and unconditional noise predictions in the
latent space. The edited latents conditioned on the 2D masks are then
iteratively updated in the training set to achieve 3D local editing. Our
approach achieves faster editing speeds and superior output quality compared to
existing 3D editing models, bridging the gap between textual instructions and
high-quality 3D scene editing in latent space. We show the superiority of our
approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art.
- Abstract(参考訳): ニューラルネットワークは、画像合成とシーン再構成において大きな進歩を遂げてきたが、それらを編集することは、多視点入力から幾何やテクスチャ情報を暗黙的にエンコードするため、非常に難しい課題となる。
本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。
拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。
編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。
InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。
2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。
提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。
LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。
関連論文リスト
- ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields [45.020585071312475]
ViCA-NeRFはテキストによる3D編集のための最初のビュー一貫性対応方式である。
我々は、異なるビューにまたがって編集情報を明示的に伝達する正規化の2つの源を利用する。
論文 参考訳(メタデータ) (2024-02-01T18:59:09Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And
Image-Prompts [126.98943185425296]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance
Fields [97.63648347686456]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - BluNF: Blueprint Neural Field [10.110885977110447]
本稿では,これらの編集問題に対処するため,Blueprint Neural Field (BluNF) と呼ばれる新しいアプローチを提案する。
BluNFは、堅牢でユーザフレンドリな2Dブループリントを提供し、直感的なシーン編集を可能にする。
直感的なクリック・アンド・チェンジ機構により,BluNFの編集性を示す。
論文 参考訳(メタデータ) (2023-09-07T17:53:25Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - Decomposing NeRF for Editing via Feature Field Distillation [14.628761232614762]
NeRFで表現されるシーンの編集は、基礎となるコネクショナリスト表現がオブジェクト指向や構成的ではないため、難しい。
本研究では,NeRFのセマンティックなシーン分解の問題に対処し,クエリに基づく局所的な編集を可能にする。
本稿では,市販の自己監督型2次元画像特徴抽出器の知識を,放射場と平行に最適化された3次元特徴場に抽出することを提案する。
論文 参考訳(メタデータ) (2022-05-31T07:56:09Z) - Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance
Fields [49.41982694533966]
本稿では,1つの単一ビューセマンティックマスクを入力として条件付けしたSemantic-to-NeRF変換を提案する。
特に、Sem2NeRFは、事前訓練されたデコーダの3Dシーン表現を制御する潜在コードにセマンティックマスクをエンコードすることで、非常に困難なタスクに対処する。
提案したSem2NeRFの有効性を検証し、2つのベンチマークデータセット上でいくつかの強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-21T09:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。