論文の概要: The Dynamic Prior: Understanding 3D Structures for Casual Dynamic Videos
- arxiv url: http://arxiv.org/abs/2512.05398v1
- Date: Fri, 05 Dec 2025 03:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.886099
- Title: The Dynamic Prior: Understanding 3D Structures for Casual Dynamic Videos
- Title(参考訳): ダイナミック・プライオリティ:カジュアル・ダイナミック・ビデオの3次元構造理解
- Authors: Zhuoyuan Wu, Xurui Yang, Jiahui Huang, Yue Wang, Jun Gao,
- Abstract要約: タスク固有のトレーニングなしで動的オブジェクトを堅牢に識別するために、Dynamic Prior(ourmodel)を導入します。
我々のモデルは、カメラポーズ最適化、深度再構成、および4次元軌道推定のための最先端パイプラインにシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 19.25337083769716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating accurate camera poses, 3D scene geometry, and object motion from in-the-wild videos is a long-standing challenge for classical structure from motion pipelines due to the presence of dynamic objects. Recent learning-based methods attempt to overcome this challenge by training motion estimators to filter dynamic objects and focus on the static background. However, their performance is largely limited by the availability of large-scale motion segmentation datasets, resulting in inaccurate segmentation and, therefore, inferior structural 3D understanding. In this work, we introduce the Dynamic Prior (\ourmodel) to robustly identify dynamic objects without task-specific training, leveraging the powerful reasoning capabilities of Vision-Language Models (VLMs) and the fine-grained spatial segmentation capacity of SAM2. \ourmodel can be seamlessly integrated into state-of-the-art pipelines for camera pose optimization, depth reconstruction, and 4D trajectory estimation. Extensive experiments on both synthetic and real-world videos demonstrate that \ourmodel not only achieves state-of-the-art performance on motion segmentation, but also significantly improves accuracy and robustness for structural 3D understanding.
- Abstract(参考訳): カメラの正確なポーズ、3Dシーンの形状、および動画中の物体の動きを推定することは、ダイナミックな物体が存在するため、モーションパイプラインからの古典的な構造にとって長年の課題である。
近年の学習に基づく手法では,動的物体をフィルタリングし,静的背景に焦点を合わせる運動推定器を訓練することで,この課題を克服しようとしている。
しかし、その性能は大規模な動き分割データセットが利用可能であることによって大きく制限されており、結果として不正確なセグメンテーションが生じ、したがって構造的な3D理解が劣る。
本研究では,視覚言語モデル(VLM)の強力な推論能力とSAM2のきめ細かい空間分割能力を活用することにより,タスク固有のトレーニングを伴わずに動的オブジェクトを頑健に識別する動的プライオリティ(モデル)を導入する。
\ourmodelは、カメラポーズ最適化、深度再構成、および4D軌道推定のための最先端パイプラインにシームレスに統合することができる。
合成ビデオと実世界ビデオの両方での大規模な実験により、モデルが動きのセグメンテーションにおける最先端のパフォーマンスを達成するだけでなく、構造的3D理解の精度と堅牢性を大幅に向上させることが示された。
関連論文リスト
- Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。
AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文 参考訳(メタデータ) (2021-09-21T01:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。