論文の概要: LongDPM: Overlap-Aware 4D Reconstruction from Long Monocular Videos
- arxiv url: http://arxiv.org/abs/2605.17303v1
- Date: Sun, 17 May 2026 07:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.889611
- Title: LongDPM: Overlap-Aware 4D Reconstruction from Long Monocular Videos
- Title(参考訳): LongDPM:ロングモノクルビデオからのオーバーラップ対応4D再構成
- Authors: Chenyi Xu, Yihao Wu, Liqi Yan, Chao Yang, Jianhui Zhang, Fangli Guan, Pan Li,
- Abstract要約: LongDPMはスケーラブルな長距離単分子動的再構成のための新しいフレームワークである。
長いビデオを重なり合うチャンクで処理し、チャンクの長さによって推論メモリを束縛する。
チャンク境界とヒューズが一致する軌道の動的アイデンティティを関連付け、コヒーレントな長距離3D運動を復元する。
- 参考スコア(独自算出の注目度): 16.205143539162318
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recovering a dynamic 3D scene from a long monocular video is crucial for dense geometry, camera motion, and temporal correspondence to remain consistent in a shared coordinate system. Existing methods face two key challenges: (1) feed-forward reconstruction models provide accurate local predictions but are limited to short clips, and (2) long-range trackers preserve correspondences without producing dense sequence-level reconstruction. This paper presents LongDPM, a novel overlap-aware framework for scalable long-range monocular dynamic reconstruction. First, LongDPM processes long videos in overlapping chunks, keeping inference memory bounded by the chunk length. Second, it connects chunk-local coordinate systems through confidence-weighted registration with static-aware overlap abstraction. Third, it associates dynamic identities across chunk boundaries and fuses matched trajectories to recover coherent long-range 3D motion. Experimental results demonstrate that LongDPM achieves superior long-range reconstruction and tracking performance, reducing dense tracking EPE over V-DPM on PointOdyssey, Kubric-F, and Kubric-G, while obtaining the best TUM-dynamics ATE for camera pose estimation.
- Abstract(参考訳): 長い単眼ビデオからダイナミックな3Dシーンを復元することは、密集した幾何学、カメラモーション、時間対応に不可欠であり、共有座標系では一貫性が保たれる。
既存の手法では,(1)フィードフォワード復元モデルが正確な局所的予測を提供するが,短いクリップに制限されていること,(2)長距離トラッカーが高密度なシーケンスレベルの再構築を伴わずに対応を保っていること,の2つの課題に直面している。
本稿では,スケーラブルな長距離単分子動的再構成のための新しいオーバーラップ・アウェア・フレームワークであるLongDPMを提案する。
まず、LongDPMは長いビデオを重なり合うチャンクで処理し、チャンクの長さによって推論メモリを束縛する。
第2に、信頼度重み付けされた登録を通じてチャンクローカル座標系を静的な重複抽象化で接続する。
第3に、チャンク境界とヒューズが一致する軌道の動的アイデンティティを関連付け、コヒーレントな長距離3D運動を復元する。
実験により、LongDPMは、カメラのポーズ推定に最適なTUM-dynamics ATEを得ながら、PointOdyssey, Kubric-F, Kubric-G上のV-DPM上の高密度トラッキングEPPを低減し、より優れた長距離再構成と追跡性能を実現することが示された。
関連論文リスト
- GemDepth: Geometry-Embedded Features for 3D-Consistent Video Depth [12.866152238833104]
ビデオ深度推定は、一眼的予測を時間領域に拡張し、コヒーレンスを確保する。
現在のアプローチは主にトランスフォーマーによる時間的平滑化に依存しており、厳密な3次元幾何学的整合性を維持するのに苦労している。
GemDepthは,カメラモーションとグローバル3D構造を明確に認識することが3D一貫性の前提条件である,という知見に基づいて構築されたフレームワークである。
論文 参考訳(メタデータ) (2026-05-11T13:11:54Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - DePT3R: Joint Dense Point Tracking and 3D Reconstruction of Dynamic Scenes in a Single Forward Pass [2.0487171253259104]
DePT3Rは、複数の画像から高密度な点追跡と動的シーンの3次元再構成を同時に行う新しいフレームワークである。
DePT3Rを動的シーンを含むいくつかの困難なベンチマークで検証し、高い性能とメモリ効率の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-12-15T09:21:28Z) - MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。