論文の概要: POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2504.05692v1
- Date: Tue, 08 Apr 2025 05:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:54.562832
- Title: POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction
- Title(参考訳): POMATO:動的3次元再構成のための時間運動対応点マップマッチング
- Authors: Songyan Zhang, Yongtao Ge, Jinyuan Tian, Guangkai Xu, Hao Chen, Chen Lv, Chunhua Shen,
- Abstract要約: POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
- 参考スコア(独自算出の注目度): 53.19968902152528
- License:
- Abstract: 3D reconstruction in dynamic scenes primarily relies on the combination of geometry estimation and matching modules where the latter task is pivotal for distinguishing dynamic regions which can help to mitigate the interference introduced by camera and object motion. Furthermore, the matching module explicitly models object motion, enabling the tracking of specific targets and advancing motion understanding in complex scenarios. Recently, the proposed representation of pointmap in DUSt3R suggests a potential solution to unify both geometry estimation and matching in 3D space, but it still struggles with ambiguous matching in dynamic regions, which may hamper further improvement. In this work, we present POMATO, a unified framework for dynamic 3D reconstruction by marrying pointmap matching with temporal motion. Specifically, our method first learns an explicit matching relationship by mapping RGB pixels from both dynamic and static regions across different views to 3D pointmaps within a unified coordinate system. Furthermore, we introduce a temporal motion module for dynamic motions that ensures scale consistency across different frames and enhances performance in tasks requiring both precise geometry and reliable matching, most notably 3D point tracking. We show the effectiveness of the proposed pointmap matching and temporal fusion paradigm by demonstrating the remarkable performance across multiple downstream tasks, including video depth estimation, 3D point tracking, and pose estimation. Code and models are publicly available at https://github.com/wyddmw/POMATO.
- Abstract(参考訳): ダイナミックシーンにおける3次元再構成は、主に幾何学的推定とマッチングモジュールの組み合わせに依存しており、後者のタスクは、カメラや物体の動きによって引き起こされる干渉を軽減するのに役立つ動的領域を区別するために重要である。
さらに、マッチングモジュールはオブジェクトの動きを明示的にモデル化し、特定のターゲットの追跡と複雑なシナリオでの動作理解の促進を可能にする。
近年,DUSt3Rにおけるポイントマップの表現は,3次元空間における幾何推定とマッチングを統一する潜在的な解法として提案されている。
本研究では,時間運動と一致する点マップを結合して動的3次元再構成を行うPOMATOについて述べる。
具体的には,RGB画素を動的および静的の両方の領域の異なるビューから3次元の点マップにマッピングすることにより,まず明示的なマッチング関係を学習する。
さらに,異なるフレーム間のスケールの整合性を保証し,高精度な幾何と信頼性の高いマッチングを必要とするタスク,特に3次元点追跡の性能を向上させる動的動作のための時間運動モジュールを提案する。
本稿では,映像深度推定,3次元点追跡,ポーズ推定など,複数の下流タスクにおける顕著な性能を示すことで,提案手法の有効性を示す。
コードとモデルはhttps://github.com/wyddmw/POMATO.comで公開されている。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Joint stereo 3D object detection and implicit surface reconstruction [39.30458073540617]
本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
方向推定のためには、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出して進歩的なアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内におけるより詳細な記述を実現するため,ステレオ画像からの暗黙的形状推定問題について検討する。
論文 参考訳(メタデータ) (2021-11-25T05:52:30Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。