論文の概要: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2312.13663v1
- Date: Thu, 21 Dec 2023 08:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:43:57.832601
- Title: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- Title(参考訳): フリーエディター:ゼロショットテキスト駆動3dシーン編集
- Authors: Nazmul Karim, Umar Khalid, Hasan Iqbal, Jing Hua, Chen Chen
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは,多目的で使いやすく,近年普及している。
本研究では,テスト期間中にモデルを再学習することなく3Dシーンを編集できる新しい3Dシーン編集技術,Free-Editorを提案する。
- 参考スコア(独自算出の注目度): 9.619713456771603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models have gained popularity recently due to
their multipurpose and easy-to-use nature, e.g. image and video generation as
well as editing. However, training a diffusion model specifically for 3D scene
editing is not straightforward due to the lack of large-scale datasets. To
date, editing 3D scenes requires either re-training the model to adapt to
various 3D edited scenes or design-specific methods for each special editing
type. Furthermore, state-of-the-art (SOTA) methods require multiple
synchronized edited images from the same scene to facilitate the scene editing.
Due to the current limitations of T2I models, it is very challenging to apply
consistent editing effects to multiple images, i.e. multi-view inconsistency in
editing. This in turn compromises the desired 3D scene editing performance if
these images are used. In our work, we propose a novel training-free 3D scene
editing technique, Free-Editor, which allows users to edit 3D scenes without
further re-training the model during test time. Our proposed method
successfully avoids the multi-view style inconsistency issue in SOTA methods
with the help of a "single-view editing" scheme. Specifically, we show that
editing a particular 3D scene can be performed by only modifying a single view.
To this end, we introduce an Edit Transformer that enforces intra-view
consistency and inter-view style transfer by utilizing self- and
cross-attention, respectively. Since it is no longer required to re-train the
model and edit every view in a scene, the editing time, as well as memory
resources, are reduced significantly, e.g., the runtime being $\sim \textbf{20}
\times$ faster than SOTA. We have conducted extensive experiments on a wide
range of benchmark datasets and achieve diverse editing capabilities with our
proposed technique.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、画像やビデオ生成や編集など、多目的で使いやすい性質のために最近人気を集めている。
しかしながら、大規模なデータセットがないため、3dシーン編集に特化した拡散モデルのトレーニングは簡単ではない。
これまで、3dシーンの編集には、様々な3d編集シーンに対応するためにモデルを再訓練するか、特別な編集タイプごとに設計固有の方法が必要だった。
さらに、シーン編集を容易にするために、同じシーンから複数の同期された画像を必要とする。
T2Iモデルの現在の制限のため、複数の画像に一貫した編集効果、すなわち編集における複数ビューの不整合を適用することは非常に困難である。
これにより、これらの画像を使用する場合、所望の3Dシーン編集性能が損なわれる。
本研究では,新たな3Dシーン編集技術であるFree-Editorを提案する。
提案手法は,SOTA方式における複数ビュースタイルの不整合問題を,単一ビュー編集方式の助けを借りて回避する。
具体的には、特定の3Dシーンの編集は、単一のビューを変更するだけで行うことができることを示す。
そこで本稿では,自己意図と相互意図をそれぞれ利用して,ビュー内一貫性とビュー間転送を実現する編集変換器を提案する。
モデルを再トレーニングし、シーン内のすべてのビューを編集する必要がなくなったため、編集時間とメモリリソースは大幅に削減され、例えば、ランタイムが$\sim \textbf{20} \times$SOTAよりも高速になる。
我々は,幅広いベンチマークデータセットについて広範な実験を行い,提案手法を用いて多様な編集機能を実現する。
関連論文リスト
- Towards a Training Free Approach for 3D Scene Editing [7.631288333466647]
近年のNeRF編集手法は,2次元拡散モデルの展開と3次元空間への投影による編集操作を利用する。
編集位置を特定するには、テキストのプロンプトとともに、強力な位置先を必要とする。
メッシュ表現をNeRFの代用として,学習自由な編集方法であるFreeEditを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:31:03Z) - CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:38:51Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。