論文の概要: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2312.13663v1
- Date: Thu, 21 Dec 2023 08:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:43:57.832601
- Title: Free-Editor: Zero-shot Text-driven 3D Scene Editing
- Title(参考訳): フリーエディター:ゼロショットテキスト駆動3dシーン編集
- Authors: Nazmul Karim, Umar Khalid, Hasan Iqbal, Jing Hua, Chen Chen
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは,多目的で使いやすく,近年普及している。
本研究では,テスト期間中にモデルを再学習することなく3Dシーンを編集できる新しい3Dシーン編集技術,Free-Editorを提案する。
- 参考スコア(独自算出の注目度): 9.619713456771603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models have gained popularity recently due to
their multipurpose and easy-to-use nature, e.g. image and video generation as
well as editing. However, training a diffusion model specifically for 3D scene
editing is not straightforward due to the lack of large-scale datasets. To
date, editing 3D scenes requires either re-training the model to adapt to
various 3D edited scenes or design-specific methods for each special editing
type. Furthermore, state-of-the-art (SOTA) methods require multiple
synchronized edited images from the same scene to facilitate the scene editing.
Due to the current limitations of T2I models, it is very challenging to apply
consistent editing effects to multiple images, i.e. multi-view inconsistency in
editing. This in turn compromises the desired 3D scene editing performance if
these images are used. In our work, we propose a novel training-free 3D scene
editing technique, Free-Editor, which allows users to edit 3D scenes without
further re-training the model during test time. Our proposed method
successfully avoids the multi-view style inconsistency issue in SOTA methods
with the help of a "single-view editing" scheme. Specifically, we show that
editing a particular 3D scene can be performed by only modifying a single view.
To this end, we introduce an Edit Transformer that enforces intra-view
consistency and inter-view style transfer by utilizing self- and
cross-attention, respectively. Since it is no longer required to re-train the
model and edit every view in a scene, the editing time, as well as memory
resources, are reduced significantly, e.g., the runtime being $\sim \textbf{20}
\times$ faster than SOTA. We have conducted extensive experiments on a wide
range of benchmark datasets and achieve diverse editing capabilities with our
proposed technique.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、画像やビデオ生成や編集など、多目的で使いやすい性質のために最近人気を集めている。
しかしながら、大規模なデータセットがないため、3dシーン編集に特化した拡散モデルのトレーニングは簡単ではない。
これまで、3dシーンの編集には、様々な3d編集シーンに対応するためにモデルを再訓練するか、特別な編集タイプごとに設計固有の方法が必要だった。
さらに、シーン編集を容易にするために、同じシーンから複数の同期された画像を必要とする。
T2Iモデルの現在の制限のため、複数の画像に一貫した編集効果、すなわち編集における複数ビューの不整合を適用することは非常に困難である。
これにより、これらの画像を使用する場合、所望の3Dシーン編集性能が損なわれる。
本研究では,新たな3Dシーン編集技術であるFree-Editorを提案する。
提案手法は,SOTA方式における複数ビュースタイルの不整合問題を,単一ビュー編集方式の助けを借りて回避する。
具体的には、特定の3Dシーンの編集は、単一のビューを変更するだけで行うことができることを示す。
そこで本稿では,自己意図と相互意図をそれぞれ利用して,ビュー内一貫性とビュー間転送を実現する編集変換器を提案する。
モデルを再トレーニングし、シーン内のすべてのビューを編集する必要がなくなったため、編集時間とメモリリソースは大幅に削減され、例えば、ランタイムが$\sim \textbf{20} \times$SOTAよりも高速になる。
我々は,幅広いベンチマークデータセットについて広範な実験を行い,提案手法を用いて多様な編集機能を実現する。
関連論文リスト
- Real-time 3D-aware Portrait Editing from a Single Image [114.97405659269198]
本研究は,与えられたプロンプトに従って顔画像を効率よく編集できる3DPEを提示する。
ライトウェイトモジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから抽出され、顔形状とオープン語彙編集能力の事前知識を提供する。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [19.407190860935888]
本稿では,新しいテキストガイド画像編集手法 Forgedit を提案する。
まず,視覚言語による共同学習により,与えられた画像を1分以内で再構築することを学ぶ,新しい微調整フレームワークを提案する。
また、拡散モデルにおけるUNet構造の一般的な性質を見つけ、そのような発見に触発されて、致命的な過適合問題を減少させるために、忘れる戦略を設計する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。