論文の概要: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2312.13663v2
- Date: Sun, 14 Jul 2024 03:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:24:41.174984
- Title: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- Title(参考訳): 無料編集機:ゼロショットテキスト駆動の3D編集
- Authors: Nazmul Karim, Hasan Iqbal, Umar Khalid, Jing Hua, Chen Chen,
- Abstract要約: 大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
- 参考スコア(独自算出の注目度): 8.966537479017951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models have recently gained traction for their versatility and user-friendliness in 2D content generation and editing. However, training a diffusion model specifically for 3D scene editing is challenging due to the scarcity of large-scale datasets. Currently, editing 3D scenes necessitates either retraining the model to accommodate various 3D edits or developing specific methods tailored to each unique editing type. Moreover, state-of-the-art (SOTA) techniques require multiple synchronized edited images from the same scene to enable effective scene editing. Given the current limitations of T2I models, achieving consistent editing effects across multiple images remains difficult, leading to multi-view inconsistency in editing. This inconsistency undermines the performance of 3D scene editing when these images are utilized. In this study, we introduce a novel, training-free 3D scene editing technique called \textsc{Free-Editor}, which enables users to edit 3D scenes without the need for model retraining during the testing phase. Our method effectively addresses the issue of multi-view style inconsistency found in state-of-the-art (SOTA) methods through the implementation of a single-view editing scheme. Specifically, we demonstrate that editing a particular 3D scene can be achieved by modifying only a single view. To facilitate this, we present an Edit Transformer that ensures intra-view consistency and inter-view style transfer using self-view and cross-view attention mechanisms, respectively. By eliminating the need for model retraining and multi-view editing, our approach significantly reduces editing time and memory resource requirements, achieving runtimes approximately 20 times faster than SOTA methods. We have performed extensive experiments on various benchmark datasets, showcasing the diverse editing capabilities of our proposed technique.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは近年,2次元コンテンツ生成と編集の汎用性とユーザフレンドリさで注目を集めている。
しかし、大規模なデータセットが不足しているため、3次元シーン編集に特化して拡散モデルを訓練することは困難である。
現在、3Dシーンの編集には、様々な3D編集に対応するためにモデルをリトレーニングするか、独自の編集タイプに合わせて特定のメソッドを開発する必要がある。
さらに、最先端(SOTA)技術では、複数の同期された画像を同じシーンから取得し、効率的なシーン編集を可能にする必要がある。
T2Iモデルの現在の限界を考えると、複数の画像に対して一貫した編集効果を達成することは依然として困難であり、多視点の編集の不整合につながる。
この不整合は、これらの画像を利用する場合の3Dシーン編集の性能を損なう。
本研究では,テスト期間中のモデル再構成を必要とせずに3Dシーンを編集できる「textsc{Free-Editor}」と呼ばれる新しい3Dシーン編集手法を提案する。
本手法は,一視点編集方式の実装を通じて,最先端(SOTA)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
具体的には,1つのビューだけを編集することで,特定の3Dシーンを編集できることを実証する。
これを容易にするために,セルフビューとクロスビューアテンション機構を用いて,ビュー内一貫性とビュー間スタイル転送を保証する編集変換器を提案する。
モデル再トレーニングやマルチビュー編集の必要性をなくすことで,本手法は編集時間とメモリリソースの要求を大幅に削減し,実行時のSOTAメソッドの約20倍の高速化を実現した。
提案手法の多種多様な編集機能を示すため,様々なベンチマークデータセットについて広範な実験を行った。
関連論文リスト
- ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。
我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。
編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。