論文の概要: Fast Multi-view Consistent 3D Editing with Video Priors
- arxiv url: http://arxiv.org/abs/2511.23172v1
- Date: Fri, 28 Nov 2025 13:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.910004
- Title: Fast Multi-view Consistent 3D Editing with Video Priors
- Title(参考訳): ビデオプリミティブを用いた高速マルチビュー一貫性3D編集
- Authors: Liyi Chen, Ruihuang Li, Guowen Zhang, Pengfei Wang, Lei Zhang,
- Abstract要約: 生成ビデオ優先型3D編集(ViP3DE)を提案する。
私たちの重要な洞察は、ビデオ生成モデルを1つの編集されたビューに条件付けして、他の一貫した編集されたビューを生成して、直接3D更新することです。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られる。
- 参考スコア(独自算出の注目度): 19.790628738739354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven 3D editing enables user-friendly 3D object or scene editing with text instructions. Due to the lack of multi-view consistency priors, existing methods typically resort to employing 2D generation or editing models to process each view individually, followed by iterative 2D-3D-2D updating. However, these methods are not only time-consuming but also prone to over-smoothed results because the different editing signals gathered from different views are averaged during the iterative process. In this paper, we propose generative Video Prior based 3D Editing (ViP3DE) to employ the temporal consistency priors from pre-trained video generation models for multi-view consistent 3D editing in a single forward pass. Our key insight is to condition the video generation model on a single edited view to generate other consistent edited views for 3D updating directly, thereby bypassing the iterative editing paradigm. Since 3D updating requires edited views to be paired with specific camera poses, we propose motion-preserved noise blending for the video model to generate edited views at predefined camera poses. In addition, we introduce geometry-aware denoising to further enhance multi-view consistency by integrating 3D geometric priors into video models. Extensive experiments demonstrate that our proposed ViP3DE can achieve high-quality 3D editing results even within a single forward pass, significantly outperforming existing methods in both editing quality and speed.
- Abstract(参考訳): テキスト駆動3D編集は、ユーザフレンドリーな3Dオブジェクトやテキスト命令によるシーン編集を可能にする。
複数ビューの一貫性が欠如しているため、既存の手法では個々のビューを個別に処理するために2D生成や編集モデルを採用し、続いて反復的な2D-3D-2D更新を行うのが一般的である。
しかし、これらの手法は時間を要するだけでなく、異なるビューから収集された異なる編集信号が反復過程中に平均化されるため、過度に平滑化される傾向にある。
本稿では,複数視点で一貫した3D編集を行うための事前学習ビデオ生成モデルから,時間的整合性を考慮したビデオ優先型3D編集(ViP3DE)を提案する。
我々の重要な洞察は、単一の編集ビューにビデオ生成モデルを条件付け、他の一貫した3D更新ビューを生成して、反復的な編集パラダイムをバイパスすることである。
3D更新では、特定のカメラポーズと組み合わせるために編集されたビューを必要とするため、予め定義されたカメラポーズで編集されたビューを生成するために、動画モデルのためのモーション保存されたノイズブレンディングを提案する。
さらに,ビデオモデルに3次元の幾何学的事前情報を統合することで,多視点の一貫性をさらに向上する幾何認識デノベーションを導入する。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られることを示した。
関連論文リスト
- 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。