論文の概要: MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion
- arxiv url: http://arxiv.org/abs/2507.23782v1
- Date: Thu, 31 Jul 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.229732
- Title: MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion
- Title(参考訳): MonoFusion:単分子核融合によるスパースビュー4D再構成
- Authors: Zihan Wang, Jeff Tan, Tarasha Khurana, Neehar Peri, Deva Ramanan,
- Abstract要約: 以前の作業では、数百台のキャリブレーションされたカメラで密集したマルチビューキャプチャを必要とすることが多い。
本研究の目的は、自転車の修理やダンスなどの動的な人間の振る舞いを、スパークビューカメラの小さなセットから再構築することである。
これらの制約に対処するため、各カメラの独立な単分子再構成を慎重に調整し、時間と視野に一貫性のある動的シーン再構成を生成する。
- 参考スコア(独自算出の注目度): 47.91767445952638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of dynamic scene reconstruction from sparse-view videos. Prior work often requires dense multi-view captures with hundreds of calibrated cameras (e.g. Panoptic Studio). Such multi-view setups are prohibitively expensive to build and cannot capture diverse scenes in-the-wild. In contrast, we aim to reconstruct dynamic human behaviors, such as repairing a bike or dancing, from a small set of sparse-view cameras with complete scene coverage (e.g. four equidistant inward-facing static cameras). We find that dense multi-view reconstruction methods struggle to adapt to this sparse-view setup due to limited overlap between viewpoints. To address these limitations, we carefully align independent monocular reconstructions of each camera to produce time- and view-consistent dynamic scene reconstructions. Extensive experiments on PanopticStudio and Ego-Exo4D demonstrate that our method achieves higher quality reconstructions than prior art, particularly when rendering novel views. Code, data, and data-processing scripts are available on https://github.com/ImNotPrepared/MonoFusion.
- Abstract(参考訳): スパースビュー映像からの動的シーン再構成の問題に対処する。
以前の作業では、何百ものキャリブレーションされたカメラ(例えばPanoptic Studio)で密集したマルチビューキャプチャを必要とすることが多い。
このようなマルチビューのセットアップは、構築に不当に高価であり、様々なシーンを撮影することができない。
一方,本研究では,自転車の修理やダンスなどの動的な人間の動作を,シーンを網羅した小さなスパークビューカメラ群(例えば4面内向きスタティックカメラ)から再構築することを目的としている。
両視点の重なり合いが小さいため,高密度な多視点再構成手法は,このスパース・ビュー・セットアップに適応し難いことが判明した。
これらの制約に対処するため、各カメラの独立な単分子再構成を慎重に調整し、時間と視野に一貫性のある動的シーン再構成を生成する。
PanopticStudio と Ego-Exo4D の広汎な実験により,本手法は先行技術,特に新規なビューのレンダリングにおいて,より高品質な再構築を実現することが示された。
コード、データ、およびデータ処理スクリプトはhttps://github.com/ImNotPrepared/MonoFusion.comで入手できる。
関連論文リスト
- Large-scale visual SLAM for in-the-wild videos [28.58692815339531]
カジュアルビデオから3D再構成を改善するために,ロバストなパイプラインを導入する。
我々は近年の深部視覚計測法を基礎にしているが、いくつかの点で頑健性を高めている。
各種環境におけるオンラインビデオの大規模連続3Dモデルについて紹介する。
論文 参考訳(メタデータ) (2025-04-29T07:37:51Z) - Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting [26.54811754399946]
そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-04-15T11:38:14Z) - MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:34:55Z) - Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.41337525728398]
EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - DRSM: efficient neural 4d decomposition for dynamic reconstruction in
stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。
本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文 参考訳(メタデータ) (2024-02-01T16:38:51Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments
from a Single Moving Camera [52.41549759529667]
MonoRecは、動的環境における単一の移動カメラから深度マップを予測する半教師付き再構築アーキテクチャである。
我々はMonoRecがマルチビューとシングルビューの両方と比較して最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2020-11-24T00:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。