論文の概要: POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2504.05692v1
- Date: Tue, 08 Apr 2025 05:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 00:11:14.302745
- Title: POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction
- Title(参考訳): POMATO:動的3次元再構成のための時間運動対応点マップマッチング
- Authors: Songyan Zhang, Yongtao Ge, Jinyuan Tian, Guangkai Xu, Hao Chen, Chen Lv, Chunhua Shen,
- Abstract要約: POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
- 参考スコア(独自算出の注目度): 53.19968902152528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D reconstruction in dynamic scenes primarily relies on the combination of geometry estimation and matching modules where the latter task is pivotal for distinguishing dynamic regions which can help to mitigate the interference introduced by camera and object motion. Furthermore, the matching module explicitly models object motion, enabling the tracking of specific targets and advancing motion understanding in complex scenarios. Recently, the proposed representation of pointmap in DUSt3R suggests a potential solution to unify both geometry estimation and matching in 3D space, but it still struggles with ambiguous matching in dynamic regions, which may hamper further improvement. In this work, we present POMATO, a unified framework for dynamic 3D reconstruction by marrying pointmap matching with temporal motion. Specifically, our method first learns an explicit matching relationship by mapping RGB pixels from both dynamic and static regions across different views to 3D pointmaps within a unified coordinate system. Furthermore, we introduce a temporal motion module for dynamic motions that ensures scale consistency across different frames and enhances performance in tasks requiring both precise geometry and reliable matching, most notably 3D point tracking. We show the effectiveness of the proposed pointmap matching and temporal fusion paradigm by demonstrating the remarkable performance across multiple downstream tasks, including video depth estimation, 3D point tracking, and pose estimation. Code and models are publicly available at https://github.com/wyddmw/POMATO.
- Abstract(参考訳): ダイナミックシーンにおける3次元再構成は、主に幾何学的推定とマッチングモジュールの組み合わせに依存しており、後者のタスクは、カメラや物体の動きによって引き起こされる干渉を軽減するのに役立つ動的領域を区別するために重要である。
さらに、マッチングモジュールはオブジェクトの動きを明示的にモデル化し、特定のターゲットの追跡と複雑なシナリオでの動作理解の促進を可能にする。
近年,DUSt3Rにおけるポイントマップの表現は,3次元空間における幾何推定とマッチングを統一する潜在的な解法として提案されている。
本研究では,時間運動と一致する点マップを結合して動的3次元再構成を行うPOMATOについて述べる。
具体的には,RGB画素を動的および静的の両方の領域の異なるビューから3次元の点マップにマッピングすることにより,まず明示的なマッチング関係を学習する。
さらに,異なるフレーム間のスケールの整合性を保証し,高精度な幾何と信頼性の高いマッチングを必要とするタスク,特に3次元点追跡の性能を向上させる動的動作のための時間運動モジュールを提案する。
本稿では,映像深度推定,3次元点追跡,ポーズ推定など,複数の下流タスクにおける顕著な性能を示すことで,提案手法の有効性を示す。
コードとモデルはhttps://github.com/wyddmw/POMATO.comで公開されている。
関連論文リスト
- St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes [40.371542172080105]
そこで我々は,D2USt3Rを提案する。D2USt3Rは,静的および動的3次元シーンの形状をフィードフォワード方式でシミュレートする。
本手法は,空間的側面と時間的側面の両方を明示的に取り入れることで,提案した4次元ポイントマップへのオブジェクト時間密度対応をカプセル化し,下流タスクを増強する。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。