論文の概要: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2312.13663v1
- Date: Thu, 21 Dec 2023 08:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:43:57.832601
- Title: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- Title(参考訳): フリーエディター:ゼロショットテキスト駆動3dシーン編集
- Authors: Nazmul Karim, Umar Khalid, Hasan Iqbal, Jing Hua, Chen Chen
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは,多目的で使いやすく,近年普及している。
本研究では,テスト期間中にモデルを再学習することなく3Dシーンを編集できる新しい3Dシーン編集技術,Free-Editorを提案する。
- 参考スコア(独自算出の注目度): 9.619713456771603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models have gained popularity recently due to
their multipurpose and easy-to-use nature, e.g. image and video generation as
well as editing. However, training a diffusion model specifically for 3D scene
editing is not straightforward due to the lack of large-scale datasets. To
date, editing 3D scenes requires either re-training the model to adapt to
various 3D edited scenes or design-specific methods for each special editing
type. Furthermore, state-of-the-art (SOTA) methods require multiple
synchronized edited images from the same scene to facilitate the scene editing.
Due to the current limitations of T2I models, it is very challenging to apply
consistent editing effects to multiple images, i.e. multi-view inconsistency in
editing. This in turn compromises the desired 3D scene editing performance if
these images are used. In our work, we propose a novel training-free 3D scene
editing technique, Free-Editor, which allows users to edit 3D scenes without
further re-training the model during test time. Our proposed method
successfully avoids the multi-view style inconsistency issue in SOTA methods
with the help of a "single-view editing" scheme. Specifically, we show that
editing a particular 3D scene can be performed by only modifying a single view.
To this end, we introduce an Edit Transformer that enforces intra-view
consistency and inter-view style transfer by utilizing self- and
cross-attention, respectively. Since it is no longer required to re-train the
model and edit every view in a scene, the editing time, as well as memory
resources, are reduced significantly, e.g., the runtime being $\sim \textbf{20}
\times$ faster than SOTA. We have conducted extensive experiments on a wide
range of benchmark datasets and achieve diverse editing capabilities with our
proposed technique.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、画像やビデオ生成や編集など、多目的で使いやすい性質のために最近人気を集めている。
しかしながら、大規模なデータセットがないため、3dシーン編集に特化した拡散モデルのトレーニングは簡単ではない。
これまで、3dシーンの編集には、様々な3d編集シーンに対応するためにモデルを再訓練するか、特別な編集タイプごとに設計固有の方法が必要だった。
さらに、シーン編集を容易にするために、同じシーンから複数の同期された画像を必要とする。
T2Iモデルの現在の制限のため、複数の画像に一貫した編集効果、すなわち編集における複数ビューの不整合を適用することは非常に困難である。
これにより、これらの画像を使用する場合、所望の3Dシーン編集性能が損なわれる。
本研究では,新たな3Dシーン編集技術であるFree-Editorを提案する。
提案手法は,SOTA方式における複数ビュースタイルの不整合問題を,単一ビュー編集方式の助けを借りて回避する。
具体的には、特定の3Dシーンの編集は、単一のビューを変更するだけで行うことができることを示す。
そこで本稿では,自己意図と相互意図をそれぞれ利用して,ビュー内一貫性とビュー間転送を実現する編集変換器を提案する。
モデルを再トレーニングし、シーン内のすべてのビューを編集する必要がなくなったため、編集時間とメモリリソースは大幅に削減され、例えば、ランタイムが$\sim \textbf{20} \times$SOTAよりも高速になる。
我々は,幅広いベンチマークデータセットについて広範な実験を行い,提案手法を用いて多様な編集機能を実現する。
関連論文リスト
- ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。
我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。
編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。