論文の概要: Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2505.01737v1
- Date: Sat, 03 May 2025 08:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.247009
- Title: Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes
- Title(参考訳): 動的シーンにおける幾何推定のための複数フレームと単眼的事前学習
- Authors: Seong Hyeon Park, Jinwoo Shin,
- Abstract要約: 我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。
近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。
MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
- 参考スコア(独自算出の注目度): 56.936178608296906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In monocular videos that capture dynamic scenes, estimating the 3D geometry of video contents has been a fundamental challenge in computer vision. Specifically, the task is significantly challenged by the object motion, where existing models are limited to predict only partial attributes of the dynamic scenes, such as depth or pointmaps spanning only over a pair of frames. Since these attributes are inherently noisy under multiple frames, test-time global optimizations are often employed to fully recover the geometry, which is liable to failure and incurs heavy inference costs. To address the challenge, we present a new model, coined MMP, to estimate the geometry in a feed-forward manner, which produces a dynamic pointmap representation that evolves over multiple frames. Specifically, based on the recent Siamese architecture, we introduce a new trajectory encoding module to project point-wise dynamics on the representation for each frame, which can provide significantly improved expressiveness for dynamic scenes. In our experiments, we find MMP can achieve state-of-the-art quality in feed-forward pointmap prediction, e.g., 15.1% enhancement in the regression error.
- Abstract(参考訳): 動的シーンを捉えたモノクロビデオでは、映像コンテンツの3次元幾何学を推定することがコンピュータビジョンの根本的な課題となっている。
具体的には、既存のモデルでは、一対のフレームだけにまたがる深さや点マップのような動的なシーンの部分的な属性のみを予測するために制限されている。
これらの特性は本質的に複数のフレームでうるさいため、テストタイムのグローバルな最適化は、しばしば幾何学の完全復元に使用される。
この課題に対処するため、我々はMMPと呼ばれる新しいモデルを提案し、フィードフォワード方式で幾何学を推定し、複数のフレーム上で進化する動的ポイントマップ表現を生成する。
具体的には、最近のシームズアーキテクチャに基づいて、各フレームの表現上のポイントワイズを投影する新しい軌道符号化モジュールを導入し、動的シーンの表現性を大幅に向上させることができる。
我々の実験では、MMPはフィードフォワードのポイントマップ予測において、回帰誤差の15.1%向上を達成できることがわかった。
関連論文リスト
- Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。