論文の概要: Fast Multi-view Consistent 3D Editing with Video Priors
- arxiv url: http://arxiv.org/abs/2511.23172v2
- Date: Mon, 01 Dec 2025 12:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.525357
- Title: Fast Multi-view Consistent 3D Editing with Video Priors
- Title(参考訳): ビデオプリミティブを用いた高速マルチビュー一貫性3D編集
- Authors: Liyi Chen, Ruihuang Li, Guowen Zhang, Pengfei Wang, Lei Zhang,
- Abstract要約: 生成ビデオ優先型3D編集(ViP3DE)を提案する。
私たちの重要な洞察は、ビデオ生成モデルを1つの編集されたビューに条件付けして、他の一貫した編集されたビューを生成して、直接3D更新することです。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られる。
- 参考スコア(独自算出の注目度): 19.790628738739354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven 3D editing enables user-friendly 3D object or scene editing with text instructions. Due to the lack of multi-view consistency priors, existing methods typically resort to employing 2D generation or editing models to process each view individually, followed by iterative 2D-3D-2D updating. However, these methods are not only time-consuming but also prone to over-smoothed results because the different editing signals gathered from different views are averaged during the iterative process. In this paper, we propose generative Video Prior based 3D Editing (ViP3DE) to employ the temporal consistency priors from pre-trained video generation models for multi-view consistent 3D editing in a single forward pass. Our key insight is to condition the video generation model on a single edited view to generate other consistent edited views for 3D updating directly, thereby bypassing the iterative editing paradigm. Since 3D updating requires edited views to be paired with specific camera poses, we propose motion-preserved noise blending for the video model to generate edited views at predefined camera poses. In addition, we introduce geometry-aware denoising to further enhance multi-view consistency by integrating 3D geometric priors into video models. Extensive experiments demonstrate that our proposed ViP3DE can achieve high-quality 3D editing results even within a single forward pass, significantly outperforming existing methods in both editing quality and speed.
- Abstract(参考訳): テキスト駆動3D編集は、ユーザフレンドリーな3Dオブジェクトやテキスト命令によるシーン編集を可能にする。
複数ビューの一貫性が欠如しているため、既存の手法では個々のビューを個別に処理するために2D生成や編集モデルを採用し、続いて反復的な2D-3D-2D更新を行うのが一般的である。
しかし、これらの手法は時間を要するだけでなく、異なるビューから収集された異なる編集信号が反復過程中に平均化されるため、過度に平滑化される傾向にある。
本稿では,複数視点で一貫した3D編集を行うための事前学習ビデオ生成モデルから,時間的整合性を考慮したビデオ優先型3D編集(ViP3DE)を提案する。
我々の重要な洞察は、単一の編集ビューにビデオ生成モデルを条件付け、他の一貫した3D更新ビューを生成して、反復的な編集パラダイムをバイパスすることである。
3D更新では、特定のカメラポーズと組み合わせるために編集されたビューを必要とするため、予め定義されたカメラポーズで編集されたビューを生成するために、動画モデルのためのモーション保存されたノイズブレンディングを提案する。
さらに,ビデオモデルに3次元の幾何学的事前情報を統合することで,多視点の一貫性をさらに向上する幾何認識デノベーションを導入する。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られることを示した。
関連論文リスト
- Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing [106.07976338405793]
3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
我々は3次元基礎モデルであるVGGTから得られた新たな報酬を用いて、強化学習によって駆動されるシングルパスフレームワークであるtextbfRL3DEditを提案する。
実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-03-03T16:31:10Z) - Edit3r: Instant 3D Scene Editing from Sparse Unposed Images [40.421700685587346]
編集3rは、3Dシーンを1パスで再構成・編集するフレームワークである。
Edit3rは,最近のベースラインと比較して,セマンティックアライメントと3D整合性の向上を実現している。
論文 参考訳(メタデータ) (2025-12-31T18:59:53Z) - C3Editor: Achieving Controllable Consistency in 2D Model for 3D Editing [37.439731931558036]
C3Editorは、コントロール可能で一貫性のある2Dリフトベースの3D編集フレームワークである。
本手法は,ビュー一貫性を有する2次元編集モデルを選択的に確立し,優れた3次元編集結果を得る。
提案手法は既存の2Dリフト方式よりも,より一貫性があり,制御可能な2Dおよび3D編集結果を提供する。
論文 参考訳(メタデータ) (2025-10-06T07:07:14Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [48.72918598961146]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。