論文の概要: Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow
- arxiv url: http://arxiv.org/abs/2602.14021v1
- Date: Sun, 15 Feb 2026 06:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.60247
- Title: Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow
- Title(参考訳): Flow4R: シーンフローによる4D再構成と追跡の統合
- Authors: Shenhan Qian, Ganlin Zhang, Shangzhe Wu, Daniel Cremers,
- Abstract要約: Flow4Rは、Vision Transformerを用いて、画素当たりのプロパティセット3Dポイント位置、シーンフロー、ポーズウェイト、および2ビュー入力からの信頼度を最小限に予測する。
静的データセットと動的データセットを併用してトレーニングされたFlow4Rは、4D再構築とトラッキングタスクにおける最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 61.297800738187355
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reconstructing and tracking dynamic 3D scenes remains a fundamental challenge in computer vision. Existing approaches often decouple geometry from motion: multi-view reconstruction methods assume static scenes, while dynamic tracking frameworks rely on explicit camera pose estimation or separate motion models. We propose Flow4R, a unified framework that treats camera-space scene flow as the central representation linking 3D structure, object motion, and camera motion. Flow4R predicts a minimal per-pixel property set-3D point position, scene flow, pose weight, and confidence-from two-view inputs using a Vision Transformer. This flow-centric formulation allows local geometry and bidirectional motion to be inferred symmetrically with a shared decoder in a single forward pass, without requiring explicit pose regressors or bundle adjustment. Trained jointly on static and dynamic datasets, Flow4R achieves state-of-the-art performance on 4D reconstruction and tracking tasks, demonstrating the effectiveness of the flow-central representation for spatiotemporal scene understanding.
- Abstract(参考訳): 動的3Dシーンの再構築と追跡は、コンピュータビジョンにおける根本的な課題である。
マルチビュー再構成手法は静的なシーンを前提としており、動的なトラッキングフレームワークは明示的なカメラポーズ推定や別のモーションモデルに依存している。
本研究では,カメラ空間のシーンフローを3次元構造,物体運動,カメラモーションをリンクする中心表現として扱う統合フレームワークであるFlow4Rを提案する。
Flow4Rは、Vision Transformerを用いて、画素当たりのプロパティセット3Dポイント位置、シーンフロー、ポーズウェイト、および2ビュー入力からの信頼度を最小限に予測する。
このフロー中心の定式化により、局所幾何学と双方向運動は、明示的なポーズ回帰器やバンドル調整を必要とせず、単一の前方通過で共有デコーダと対称に推論できる。
静的および動的データセットを併用してトレーニングされたFlow4Rは、4D再構成およびトラッキングタスクにおける最先端のパフォーマンスを実現し、時空間的シーン理解のためのフロー中央表現の有効性を実証する。
関連論文リスト
- 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [86.099855111676]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。
この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。
私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文 参考訳(メタデータ) (2025-04-20T07:29:42Z) - D$^2$USt3R: Enhancing 3D Reconstruction for Dynamic Scenes [54.886845755635754]
本研究は動的シーンにおける3次元再構成の課題に対処し,物体の動きが従来の3次元ポイントマップ回帰法の品質を劣化させる。
空間的側面と時間的側面の両方を明示的に組み込むことにより,提案した点マップに対する3次元密度対応のカプセル化に成功した。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。