論文の概要: Text-driven Editing of 3D Scenes without Retraining
- arxiv url: http://arxiv.org/abs/2309.04917v1
- Date: Sun, 10 Sep 2023 02:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:39:02.482424
- Title: Text-driven Editing of 3D Scenes without Retraining
- Title(参考訳): 再現性のない3次元シーンのテキスト駆動編集
- Authors: Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding,
Ming-Hsuan Yang, Shuchang Zhou
- Abstract要約: DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
- 参考スコア(独自算出の注目度): 80.57814031701744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous diffusion models have recently been applied to image synthesis and
editing. However, editing 3D scenes is still in its early stages. It poses
various challenges, such as the requirement to design specific methods for
different editing types, retraining new models for various 3D scenes, and the
absence of convenient human interaction during editing. To tackle these issues,
we introduce a text-driven editing method, termed DN2N, which allows for the
direct acquisition of a NeRF model with universal editing capabilities,
eliminating the requirement for retraining. Our method employs off-the-shelf
text-based editing models of 2D images to modify the 3D scene images, followed
by a filtering process to discard poorly edited images that disrupt 3D
consistency. We then consider the remaining inconsistency as a problem of
removing noise perturbation, which can be solved by generating training data
with similar perturbation characteristics for training. We further propose
cross-view regularization terms to help the generalized NeRF model mitigate
these perturbations. Our text-driven method allows users to edit a 3D scene
with their desired description, which is more friendly, intuitive, and
practical than prior works. Empirical results show that our method achieves
multiple editing types, including but not limited to appearance editing,
weather transition, material changing, and style transfer. Most importantly,
our method generalizes well with editing abilities shared among a set of model
parameters without requiring a customized editing model for some specific
scenes, thus inferring novel views with editing effects directly from user
input. The project website is available at http://sk-fun.fun/DN2N
- Abstract(参考訳): 近年,画像合成と編集に多くの拡散モデルが適用されている。
しかし、3Dシーンの編集はまだ初期段階にある。
例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。
そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。
本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。
次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。
さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。
テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。
実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。
本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。
プロジェクトのwebサイトはhttp://sk-fun.fun/dn2nで入手できる。
関連論文リスト
- Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。
我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。
編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields [14.803266838721864]
Seal-3Dでは、ユーザーは幅広いNeRFに似たバックボーンで、ピクセルレベルの自由な方法でNeRFモデルを編集し、編集効果を即座にプレビューすることができる。
様々な編集タイプを展示するために、NeRF編集システムを構築している。
論文 参考訳(メタデータ) (2023-07-27T18:08:19Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。