論文の概要: Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2512.00677v1
- Date: Sun, 30 Nov 2025 00:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.357027
- Title: Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer
- Title(参考訳): Dynamic-eDiTor:マルチモーダル拡散変換器を用いた学習自由テキスト駆動4次元シーン編集
- Authors: Dong In Lee, Hyungjun Doh, Seunggeun Chi, Runlin Duan, Sangpil Kim, Karthik Ramani,
- Abstract要約: 我々は,Multimodal Diffusion Transformer(MM-DiT)と4DGSを活用した,トレーニング不要のテキスト駆動4D編集フレームワークであるDynamic-eDiTorを紹介する。
提案手法は,複数ビューと時間的一貫性の両面において,より優れた編集精度を実現する。
- 参考スコア(独自算出の注目度): 21.55368174087611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in 4D representations, such as Dynamic NeRF and 4D Gaussian Splatting (4DGS), has enabled dynamic 4D scene reconstruction. However, text-driven 4D scene editing remains under-explored due to the challenge of ensuring both multi-view and temporal consistency across space and time during editing. Existing studies rely on 2D diffusion models that edit frames independently, often causing motion distortion, geometric drift, and incomplete editing. We introduce Dynamic-eDiTor, a training-free text-driven 4D editing framework leveraging Multimodal Diffusion Transformer (MM-DiT) and 4DGS. This mechanism consists of Spatio-Temporal Sub-Grid Attention (STGA) for locally consistent cross-view and temporal fusion, and Context Token Propagation (CTP) for global propagation via token inheritance and optical-flow-guided token replacement. Together, these components allow Dynamic-eDiTor to perform seamless, globally consistent multi-view video without additional training and directly optimize pre-trained source 4DGS. Extensive experiments on multi-view video dataset DyNeRF demonstrate that our method achieves superior editing fidelity and both multi-view and temporal consistency prior approaches. Project page for results and code: https://di-lee.github.io/dynamic-eDiTor/
- Abstract(参考訳): 4DGS(Dynamic NeRF)や4D Gaussian Splatting(4DGS)のような4D表現の最近の進歩により、4Dシーンの動的再構築が可能になった。
しかし、テキスト駆動の4Dシーン編集は、編集中の空間と時間にまたがる複数ビューと時間的一貫性を確保するという課題のため、まだ探索されていない。
既存の研究はフレームを独立に編集する2次元拡散モデルに依存しており、しばしば運動歪み、幾何学的ドリフト、不完全な編集を引き起こす。
我々は,Multimodal Diffusion Transformer(MM-DiT)と4DGSを活用した,トレーニング不要のテキスト駆動4D編集フレームワークであるDynamic-eDiTorを紹介する。
このメカニズムは、局所的に一貫したクロスビューと時間融合のための時空間サブグリッドアテンション(STGA)と、トークン継承と光フロー誘導トークン置換によるグローバルな伝播のためのコンテキストトークンプロパゲーション(CTP)から構成される。
これらのコンポーネントを組み合わせることで、Dynamic-eDiTorは、追加のトレーニングなしでシームレスで一貫したマルチビュービデオを実行でき、事前トレーニングされたソース4DGSを直接最適化できる。
マルチビュービデオデータセットDyNeRFの広汎な実験により,本手法はより優れた編集忠実度を実現し,複数ビューと時間的整合性が先行する手法であることを示す。
結果とコードのプロジェクトページ: https://di-lee.github.io/dynamic-eDiTor/
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-24T12:48:14Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。