Fugu-MT 論文翻訳(概要): LatentEditor: Text Driven Local Editing of 3D Scenes

論文の概要: LatentEditor: Text Driven Local Editing of 3D Scenes

arxiv url: http://arxiv.org/abs/2312.09313v3
Date: Sat, 30 Mar 2024 14:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:35:39.286981
Title: LatentEditor: Text Driven Local Editing of 3D Scenes
Title（参考訳）: LatentEditor: 3Dシーンのテキスト駆動ローカル編集
Authors: Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen,
Abstract要約: テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
参考スコア（独自算出の注目度）: 8.966537479017951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While neural fields have made significant strides in view synthesis and scene reconstruction, editing them poses a formidable challenge due to their implicit encoding of geometry and texture information from multi-view inputs. In this paper, we introduce \textsc{LatentEditor}, an innovative framework designed to empower users with the ability to perform precise and locally controlled editing of neural fields using text prompts. Leveraging denoising diffusion models, we successfully embed real-world scenes into the latent space, resulting in a faster and more adaptable NeRF backbone for editing compared to traditional methods. To enhance editing precision, we introduce a delta score to calculate the 2D mask in the latent space that serves as a guide for local modifications while preserving irrelevant regions. Our novel pixel-level scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the disparity between IP2P conditional and unconditional noise predictions in the latent space. The edited latents conditioned on the 2D masks are then iteratively updated in the training set to achieve 3D local editing. Our approach achieves faster editing speeds and superior output quality compared to existing 3D editing models, bridging the gap between textual instructions and high-quality 3D scene editing in latent space. We show the superiority of our approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art.
Abstract（参考訳）: ニューラルフィールドは、ビュー合成とシーン再構成において大きな進歩を遂げてきたが、それらの編集は、多視点入力からの幾何学やテクスチャ情報の暗黙的なエンコーディングのために、非常に難しい課題となっている。本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。 InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。 2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。 LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。

関連論文リスト

Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors [67.22744959435708]
3Dセマンティックパーシングは2Dに比べて性能が劣ることが多く、3D空間内でのターゲット操作がより困難になり、編集の忠実さが制限される。本稿では,2次元拡散編集を利用して各ビューの修正領域を正確に同定し,次に3次元ローカライゼーションのための逆レンダリングを行う。実験により,提案手法は最新技術の性能を実現し,最大4倍のスピードアップを実現した。
論文参考訳（メタデータ） (2025-07-07T19:15:43Z)
PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文参考訳（メタデータ） (2024-12-09T15:44:47Z)
GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization [11.170354299559998]
本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
論文参考訳（メタデータ） (2024-11-15T08:25:14Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields [45.020585071312475]
ViCA-NeRFはテキストによる3D編集のための最初のビュー一貫性対応方式である。我々は、異なるビューにまたがって編集情報を明示的に伝達する正規化の2つの源を利用する。
論文参考訳（メタデータ） (2024-02-01T18:59:09Z)
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:06Z)
MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing [61.014328598895524]
textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。 SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
論文参考訳（メタデータ） (2023-12-12T03:04:08Z)
Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文参考訳（メタデータ） (2023-12-11T18:59:31Z)
BluNF: Blueprint Neural Field [10.110885977110447]
本稿では,これらの編集問題に対処するため,Blueprint Neural Field (BluNF) と呼ばれる新しいアプローチを提案する。 BluNFは、堅牢でユーザフレンドリな2Dブループリントを提供し、直感的なシーン編集を可能にする。直感的なクリック・アンド・チェンジ機構により,BluNFの編集性を示す。
論文参考訳（メタデータ） (2023-09-07T17:53:25Z)
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [115.07896366760876]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文参考訳（メタデータ） (2023-06-23T11:53:43Z)
SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文参考訳（メタデータ） (2023-03-19T18:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。