論文の概要: CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion
- arxiv url: http://arxiv.org/abs/2412.01792v1
- Date: Mon, 02 Dec 2024 18:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:28.089287
- Title: CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion
- Title(参考訳): CTRL-D:パーソナライズされた2次元拡散を用いた動的3次元シーン編集
- Authors: Kai He, Chin-Hsuan Wu, Igor Gilitschenski,
- Abstract要約: 本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
- 参考スコア(独自算出の注目度): 13.744253074367885
- License:
- Abstract: Recent advances in 3D representations, such as Neural Radiance Fields and 3D Gaussian Splatting, have greatly improved realistic scene modeling and novel-view synthesis. However, achieving controllable and consistent editing in dynamic 3D scenes remains a significant challenge. Previous work is largely constrained by its editing backbones, resulting in inconsistent edits and limited controllability. In our work, we introduce a novel framework that first fine-tunes the InstructPix2Pix model, followed by a two-stage optimization of the scene based on deformable 3D Gaussians. Our fine-tuning enables the model to "learn" the editing ability from a single edited reference image, transforming the complex task of dynamic scene editing into a simple 2D image editing process. By directly learning editing regions and styles from the reference, our approach enables consistent and precise local edits without the need for tracking desired editing regions, effectively addressing key challenges in dynamic scene editing. Then, our two-stage optimization progressively edits the trained dynamic scene, using a designed edited image buffer to accelerate convergence and improve temporal consistency. Compared to state-of-the-art methods, our approach offers more flexible and controllable local scene editing, achieving high-quality and consistent results.
- Abstract(参考訳): ニューラルレイディアンス・フィールドや3次元ガウス・スプレイティングといった最近の3次元表現の進歩は、リアルなシーンモデリングとノベルビュー合成を大幅に改善した。
しかし、動的3Dシーンで制御可能で一貫した編集を実現することは大きな課題である。
以前の作業は、編集バックボーンによって大きく制約され、一貫性のない編集と制限された制御性をもたらす。
本稿では,まずInstructPix2Pixモデルを微調整し,次いで変形可能な3Dガウスモデルに基づくシーンの2段階最適化を行う。
我々の微調整により、単一の編集参照画像から編集能力を「学習」し、動的シーン編集の複雑なタスクを単純な2次元画像編集プロセスに変換することができる。
本手法は,参照から編集領域やスタイルを直接学習することにより,所望の編集領域を追跡することなく,一貫した局所的な編集を可能にし,動的シーン編集における重要な課題に効果的に対処する。
そして,2段階の最適化によってトレーニングされた動的シーンを段階的に編集し,画像バッファを設計してコンバージェンスを高速化し,時間的整合性を向上させる。
我々の手法は最先端の手法と比較して、より柔軟で制御可能なローカルシーン編集を提供し、高品質で一貫した結果が得られる。
関連論文リスト
- Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation [25.047474784265773]
最近の4D動的シーン編集手法では、動的シーン合成に使用される数千の2D画像を編集する必要がある。
これらの手法は動的シーンの時間次元に関して拡張性がない。
本研究では,時間次元の面でよりスケーラブルな動的シーン編集手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T08:18:49Z) - Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。