論文の概要: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos
- arxiv url: http://arxiv.org/abs/2412.19089v2
- Date: Sat, 08 Mar 2025 08:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.791879
- Title: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos
- Title(参考訳): 校正パターンとしての人間:非同期・非校正映像からの動的3次元シーン再構成
- Authors: Changwoon Choi, Jeongjun Kim, Geonho Cha, Minkwan Kim, Dongyoon Wee, Young Min Kim,
- Abstract要約: 動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。
アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
- 参考スコア(独自算出の注目度): 12.19207713016543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on dynamic 3D neural field reconstruction assume the input from synchronized multi-view videos whose poses are known. The input constraints are often not satisfied in real-world setups, making the approach impractical. We show that unsynchronized videos from unknown poses can generate dynamic neural fields as long as the videos capture human motion. Humans are one of the most common dynamic subjects captured in videos, and their shapes and poses can be estimated using state-of-the-art libraries. While noisy, the estimated human shape and pose parameters provide a decent initialization point to start the highly non-convex and under-constrained problem of training a consistent dynamic neural representation. Given the shape and pose parameters of humans in individual frames, we formulate methods to calculate the time offsets between videos, followed by camera pose estimations that analyze the 3D joint positions. Then, we train the dynamic neural fields employing multiresolution grids while we concurrently refine both time offsets and camera poses. The setup still involves optimizing many parameters; therefore, we introduce a robust progressive learning strategy to stabilize the process. Experiments show that our approach achieves accurate spatio-temporal calibration and high-quality scene reconstruction in challenging conditions.
- Abstract(参考訳): 動的3次元神経場再構成に関する最近の研究は、ポーズが知られている同期マルチビュービデオからの入力を前提としている。
入力制約は実世界の設定では満たされないことが多いため、アプローチは現実的ではない。
未知のポーズからの非同期ビデオは、ビデオが人間の動きを捉えている限り、動的ニューラルネットワークを生成することができることを示す。
人間はビデオで捉えられる最も一般的なダイナミックな主題の1つであり、その形状とポーズは最先端のライブラリーを使って推定することができる。
ノイズがある一方で、推定された人間の形状とポーズパラメータは、一貫した動的神経表現を訓練する非常に非凸で制約の少ない問題を開始するための適切な初期化ポイントを提供する。
個々のフレームにおける人間の形状とポーズパラメータを考慮し、ビデオ間の時間オフセットを計算する方法を定式化し、続いて3次元関節位置を分析するカメラポーズ推定を行う。
次に,マルチレゾリューショングリッドを用いた動的ニューラルネットワークのトレーニングを行い,時間オフセットとカメラポーズの両方を同時に洗練する。
このセットアップには、多くのパラメーターの最適化が伴うため、プロセスの安定化のための堅牢なプログレッシブラーニング戦略を導入する。
実験により, 困難条件下での正確な時空間キャリブレーションと高品質なシーン再構成を実現することができた。
関連論文リスト
- Large-scale visual SLAM for in-the-wild videos [28.58692815339531]
カジュアルビデオから3D再構成を改善するために,ロバストなパイプラインを導入する。
我々は近年の深部視覚計測法を基礎にしているが、いくつかの点で頑健性を高めている。
各種環境におけるオンラインビデオの大規模連続3Dモデルについて紹介する。
論文 参考訳(メタデータ) (2025-04-29T07:37:51Z) - Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video [22.760823792026056]
本稿では,連続カメラの動きを時間依存性の角速度と速度としてモデル化することにより,先行依存性を除去する手法を提案する。
提案手法は,最先端手法と比較して,優れたカメラポーズと深度推定,および新規ビュー合成性能を実現する。
論文 参考訳(メタデータ) (2025-04-28T14:22:04Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
論文 参考訳(メタデータ) (2023-06-07T05:36:45Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。