論文の概要: 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos
- arxiv url: http://arxiv.org/abs/2511.05229v1
- Date: Fri, 07 Nov 2025 13:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.771867
- Title: 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos
- Title(参考訳): 4D3R:モノクロ映像からの動的シーンの運動認識型ニューラルコンストラクションとレンダリング
- Authors: Mengqi Guo, Bo Xu, Yanyan Li, Gim Hee Lee,
- Abstract要約: 静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
- 参考スコア(独自算出の注目度): 52.89084603734664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis from monocular videos of dynamic scenes with unknown camera poses remains a fundamental challenge in computer vision and graphics. While recent advances in 3D representations such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) have shown promising results for static scenes, they struggle with dynamic content and typically rely on pre-computed camera poses. We present 4D3R, a pose-free dynamic neural rendering framework that decouples static and dynamic components through a two-stage approach. Our method first leverages 3D foundational models for initial pose and geometry estimation, followed by motion-aware refinement. 4D3R introduces two key technical innovations: (1) a motion-aware bundle adjustment (MA-BA) module that combines transformer-based learned priors with SAM2 for robust dynamic object segmentation, enabling more accurate camera pose refinement; and (2) an efficient Motion-Aware Gaussian Splatting (MA-GS) representation that uses control points with a deformation field MLP and linear blend skinning to model dynamic motion, significantly reducing computational cost while maintaining high-quality reconstruction. Extensive experiments on real-world dynamic datasets demonstrate that our approach achieves up to 1.8dB PSNR improvement over state-of-the-art methods, particularly in challenging scenarios with large dynamic objects, while reducing computational requirements by 5x compared to previous dynamic scene representations.
- Abstract(参考訳): カメラのポーズが未知の動的シーンのモノクロビデオから新しいビュー合成は、コンピュータビジョンとグラフィックスの基本的な課題である。
ニューラルレイディアンス・フィールド(NeRF)や3Dガウス・スプレイティング(3DGS)といった最近の3D表現の進歩は静的なシーンで有望な結果を示しているが、動的コンテンツと闘い、通常、事前に計算されたカメラのポーズに依存している。
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法はまず3次元基礎モデルを用いて初期ポーズと幾何推定を行い,次にモーションアウェアの改良を行った。
4D3R では,(1) 変形場 MLP と線形ブレンドスキンを用いた制御点を用いた効率的な動き認識ガウス・スプレイティング (MA-GS) 表現により, 動的運動をモデル化し, 計算コストを大幅に削減し, 高品質な再構成を維持した。
実世界の動的データセットに関する大規模な実験により、我々の手法は最先端のPSNRよりも最大1.8dBのPSNR改善を実現し、特に大きな動的オブジェクトを持つ挑戦的なシナリオでは、従来の動的シーン表現と比較して計算要求を5倍削減することを示した。
関連論文リスト
- DynaPose4D: High-Quality 4D Dynamic Content Generation via Pose Alignment Loss [5.644194272935956]
DynaPose4Dは、単一の静的画像から高品質な4D動的コンテンツを生成するフレームワークである。
その結果,DynaPose4Dは動的運動生成において優れたコヒーレンス,一貫性,流動性が得られた。
論文 参考訳(メタデータ) (2025-10-26T01:11:13Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [86.099855111676]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。
この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。
私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文 参考訳(メタデータ) (2025-04-20T07:29:42Z) - BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting [8.480548767680894]
BARD-GSは、ぼやけた入力や不正確なカメラポーズを効果的に処理する、ロバストな動的シーン再構築のための新しいアプローチである。
動きのぼかしをカメラの動きのぼかしや物体の動きのぼかしに明示的に分解することにより、動的領域におけるレンダリング結果を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T04:23:52Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。