論文の概要: Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos
- arxiv url: http://arxiv.org/abs/2603.12064v1
- Date: Thu, 12 Mar 2026 15:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.187242
- Title: Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos
- Title(参考訳): 多視点映像からの高密度ダイナミックシーン再構成とカメラポーズ推定
- Authors: Shuo Sun, Unal Artan, Malcolm Mielle, Achim J. Lilienthaland, Martin Magnusson,
- Abstract要約: 本稿では,複数のカメラから高密度ダイナミックシーン再構成とカメラポーズ推定を行う際の課題に対処する。
本稿では,タスクの頑健なカメラ追跡と深度を分離する2段階最適化フレームワークを提案する。
提案手法は, 合成および実世界のベンチマークにおいて, 最先端のフィードフォワードモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 14.791378262503967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenging problem of dense dynamic scene reconstruction and camera pose estimation from multiple freely moving cameras -- a setting that arises naturally when multiple observers capture a shared event. Prior approaches either handle only single-camera input or require rigidly mounted, pre-calibrated camera rigs, limiting their practical applicability. We propose a two-stage optimization framework that decouples the task into robust camera tracking and dense depth refinement. In the first stage, we extend single-camera visual SLAM to the multi-camera setting by constructing a spatiotemporal connection graph that exploits both intra-camera temporal continuity and inter-camera spatial overlap, enabling consistent scale and robust tracking. To ensure robustness under limited overlap, we introduce a wide-baseline initialization strategy using feed-forward reconstruction models. In the second stage, we refine depth and camera poses by optimizing dense inter- and intra-camera consistency using wide-baseline optical flow. Additionally, we introduce MultiCamRobolab, a new real-world dataset with ground-truth poses from a motion capture system. Finally, we demonstrate that our method significantly outperforms state-of-the-art feed-forward models on both synthetic and real-world benchmarks, while requiring less memory.
- Abstract(参考訳): 複数の観察者が共有イベントをキャプチャした時に自然に発生する設定である、複数の自由に動くカメラからの密集したダイナミックシーンの再構築とカメラポーズ推定の難題に対処する。
従来のアプローチでは、シングルカメラ入力のみを扱うか、厳格に装着されたプリキャリブレーションされたカメラリグを必要とするため、実用性は制限されていた。
本稿では,タスクを堅牢なカメラ追跡と深度補正に分解する2段階最適化フレームワークを提案する。
第1段階では、一貫したスケールとロバストなトラッキングを実現するために、カメラ内時間連続性とカメラ間空間重なりの両面を利用した時空間接続グラフを構築することで、単一カメラの視界SLAMをマルチカメラ設定に拡張する。
重なり合いが制限された場合のロバスト性を確保するため,フィードフォワード再構成モデルを用いた広域初期化戦略を導入する。
第2段階では、広基線光学流を用いた高密度・高密度カメラ間一貫性を最適化し、奥行きとカメラのポーズを洗練する。
さらに、モーションキャプチャーシステムから、地味なポーズを持つ新しい実世界のデータセットであるMultiCamRobolabを紹介する。
最後に、本手法は、メモリの削減を図りながら、合成および実世界のベンチマークにおいて、最先端のフィードフォワードモデルを大幅に上回ることを示す。
関連論文リスト
- E-4DGS: High-Fidelity Dynamic Reconstruction from the Multi-view Event Cameras [44.78881339601845]
イベントカメラは低消費電力、高時間分解能、高ダイナミックレンジの利点を提供する。
高速移動におけるシーン再構築の課題に対する新しい視点
論文 参考訳(メタデータ) (2025-08-13T16:09:36Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting [8.480548767680894]
BARD-GSは、ぼやけた入力や不正確なカメラポーズを効果的に処理する、ロバストな動的シーン再構築のための新しいアプローチである。
動きのぼかしをカメラの動きのぼかしや物体の動きのぼかしに明示的に分解することにより、動的領域におけるレンダリング結果を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T04:23:52Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Event-based Continuous Color Video Decompression from Single Frames [36.4263932473053]
本研究では,静止RGB画像とイベントカメラストリームから連続映像を生成する新しい手法であるContinuityCamを提案する。
提案手法は、連続した長距離動きモデリングとニューラル合成モデルを組み合わせることで、イベント内の任意のタイミングでフレーム予測を可能にする。
論文 参考訳(メタデータ) (2023-11-30T18:59:23Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。