論文の概要: Editing 3D Scenes via Text Prompts without Retraining
- arxiv url: http://arxiv.org/abs/2309.04917v3
- Date: Thu, 30 Nov 2023 03:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:12:03.073441
- Title: Editing 3D Scenes via Text Prompts without Retraining
- Title(参考訳): テキストプロンプトによる3Dシーンの編集
- Authors: Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding,
Shuchang Zhou, Ming-Hsuan Yang
- Abstract要約: DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
- 参考スコア(独自算出の注目度): 80.57814031701744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous diffusion models have recently been applied to image synthesis and
editing. However, editing 3D scenes is still in its early stages. It poses
various challenges, such as the requirement to design specific methods for
different editing types, retraining new models for various 3D scenes, and the
absence of convenient human interaction during editing. To tackle these issues,
we introduce a text-driven editing method, termed DN2N, which allows for the
direct acquisition of a NeRF model with universal editing capabilities,
eliminating the requirement for retraining. Our method employs off-the-shelf
text-based editing models of 2D images to modify the 3D scene images, followed
by a filtering process to discard poorly edited images that disrupt 3D
consistency. We then consider the remaining inconsistency as a problem of
removing noise perturbation, which can be solved by generating training data
with similar perturbation characteristics for training. We further propose
cross-view regularization terms to help the generalized NeRF model mitigate
these perturbations. Our text-driven method allows users to edit a 3D scene
with their desired description, which is more friendly, intuitive, and
practical than prior works. Empirical results show that our method achieves
multiple editing types, including but not limited to appearance editing,
weather transition, material changing, and style transfer. Most importantly,
our method generalizes well with editing abilities shared among a set of model
parameters without requiring a customized editing model for some specific
scenes, thus inferring novel views with editing effects directly from user
input. The project website is available at https://sk-fun.fun/DN2N
- Abstract(参考訳): 近年,画像合成と編集に多くの拡散モデルが適用されている。
しかし、3Dシーンの編集はまだ初期段階にある。
例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。
そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。
本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。
次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。
さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。
テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。
実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。
本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。
プロジェクトのwebサイトはhttps://sk-fun.fun/dn2nで入手できる。
関連論文リスト
- Real-time 3D-aware Portrait Editing from a Single Image [114.97405659269198]
本研究は,与えられたプロンプトに従って顔画像を効率よく編集できる3DPEを提示する。
ライトウェイトモジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから抽出され、顔形状とオープン語彙編集能力の事前知識を提供する。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [9.619713456771603]
テキスト・ツー・イメージ(T2I)拡散モデルは,多目的で使いやすく,近年普及している。
本研究では,テスト期間中にモデルを再学習することなく3Dシーンを編集できる新しい3Dシーン編集技術,Free-Editorを提案する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields [14.803266838721864]
Seal-3Dでは、ユーザーは幅広いNeRFに似たバックボーンで、ピクセルレベルの自由な方法でNeRFモデルを編集し、編集効果を即座にプレビューすることができる。
様々な編集タイプを展示するために、NeRF編集システムを構築している。
論文 参考訳(メタデータ) (2023-07-27T18:08:19Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions [109.51624993088687]
テキストインストラクションを用いたNeRFシーンの編集手法を提案する。
シーンのNeRFと再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いてシーンを最適化しながら入力画像を反復的に編集する。
提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを実証する。
論文 参考訳(メタデータ) (2023-03-22T17:57:57Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。