論文の概要: ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2402.00864v1
- Date: Thu, 1 Feb 2024 18:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:50:49.250479
- Title: ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields
- Title(参考訳): ViCA-NeRF:ニューラルラジアンスフィールドの3次元編集
- Authors: Jiahua Dong and Yu-Xiong Wang
- Abstract要約: ViCA-NeRFはテキストによる3D編集のための最初のビュー一貫性対応方式である。
我々は、異なるビューにまたがって編集情報を明示的に伝達する正規化の2つの源を利用する。
- 参考スコア(独自算出の注目度): 45.020585071312475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ViCA-NeRF, the first view-consistency-aware method for 3D
editing with text instructions. In addition to the implicit neural radiance
field (NeRF) modeling, our key insight is to exploit two sources of
regularization that explicitly propagate the editing information across
different views, thus ensuring multi-view consistency. For geometric
regularization, we leverage the depth information derived from NeRF to
establish image correspondences between different views. For learned
regularization, we align the latent codes in the 2D diffusion model between
edited and unedited images, enabling us to edit key views and propagate the
update throughout the entire scene. Incorporating these two strategies, our
ViCA-NeRF operates in two stages. In the initial stage, we blend edits from
different views to create a preliminary 3D edit. This is followed by a second
stage of NeRF training, dedicated to further refining the scene's appearance.
Experimental results demonstrate that ViCA-NeRF provides more flexible,
efficient (3 times faster) editing with higher levels of consistency and
details, compared with the state of the art. Our code is publicly available.
- Abstract(参考訳): vica-nerfはテキスト命令による3d編集のための最初のビューコンシスタンス認識手法である。
暗黙的ニューラルラディアンス場(NeRF)のモデリングに加えて、我々の重要な洞察は2つの正規化源を利用して異なるビュー間で編集情報を明示的に伝播させ、マルチビューの一貫性を確保することである。
幾何正規化には、NeRFから得られる深度情報を活用し、異なるビュー間の画像対応を確立する。
学習正規化のために、編集済み画像と未編集画像の間の2d拡散モデルの潜在コードを調整することで、キービューを編集し、シーン全体にわたってアップデートを広めることができる。
これら2つの戦略を組み込んだViCA-NeRFは2段階で動作する。
最初の段階では、異なるビューから編集をブレンドし、予備的な3d編集を作成します。
続いて、シーンの外観をさらに磨き上げるため、NeRFトレーニングの第2ステージが予定されている。
実験の結果,ViCA-NeRFは高い一貫性と細部でより柔軟で効率的(3倍高速)な編集を可能にすることが示された。
私たちのコードは公開されています。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - DATENeRF: Depth-Aware Text-based Editing of NeRFs [49.08848777124736]
我々は、NeRFシーンの深度情報を利用して異なる画像に2D編集を分散する塗装手法を提案する。
以上の結果から,本手法は既存のテキスト駆動型NeRFシーン編集手法よりも,より一貫性があり,ライフライクで,詳細な編集が可能であることが判明した。
論文 参考訳(メタデータ) (2024-04-06T06:48:16Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。