論文の概要: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos
- arxiv url: http://arxiv.org/abs/2412.19089v1
- Date: Thu, 26 Dec 2024 07:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:31.319101
- Title: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos
- Title(参考訳): 校正パターンとしての人間:非同期・非校正映像からの動的3次元シーン再構成
- Authors: Changwoon Choi, Jeongjun Kim, Geonho Cha, Minkwan Kim, Dongyoon Wee, Young Min Kim,
- Abstract要約: 動的ニューラルネットワークの最近のセットアップは、既知のポーズを持つマルチビュービデオからの入力を前提としている。
ビデオのキャプチャが安定すれば、未知のポーズを持つアンチロナイズドビデオが動的ニューラルネットワークを生成できることを示す。
- 参考スコア(独自算出の注目度): 12.19207713016543
- License:
- Abstract: Recent works on dynamic neural field reconstruction assume input from synchronized multi-view videos with known poses. These input constraints are often unmet in real-world setups, making the approach impractical. We demonstrate that unsynchronized videos with unknown poses can generate dynamic neural fields if the videos capture human motion. Humans are one of the most common dynamic subjects whose poses can be estimated using state-of-the-art methods. While noisy, the estimated human shape and pose parameters provide a decent initialization for the highly non-convex and under-constrained problem of training a consistent dynamic neural representation. Given the sequences of pose and shape of humans, we estimate the time offsets between videos, followed by camera pose estimations by analyzing 3D joint locations. Then, we train dynamic NeRF employing multiresolution rids while simultaneously refining both time offsets and camera poses. The setup still involves optimizing many parameters, therefore, we introduce a robust progressive learning strategy to stabilize the process. Experiments show that our approach achieves accurate spatiotemporal calibration and high-quality scene reconstruction in challenging conditions.
- Abstract(参考訳): 動的ニューラルネットワーク再構成に関する最近の研究は、既知のポーズと同期化されたマルチビュービデオからの入力を前提としている。
これらの入力制約は、しばしば実世界の設定では未成熟であり、アプローチを非現実的なものにしている。
未知のポーズを持つ非同期ビデオは、ビデオが人間の動きを捉えている場合、ダイナミックなニューラルフィールドを生成することを実証する。
人間は、最先端の手法を用いてポーズを推定できる最も一般的な動的主題の1つである。
ノイズがある一方で、推定された人間の形状とポーズパラメータは、一貫した動的神経表現を訓練する非常に非凸で制約の少ない問題に対して、適切な初期化を提供する。
人間のポーズのシーケンスと形状を考慮し,ビデオ間の時間相違を推定し,次いで3次元関節位置を解析してカメラのポーズ推定を行う。
そして,マルチレゾリューションによる動的NeRFのトレーニングを行い,時間オフセットとカメラポーズの両方を同時に精錬する。
このセットアップは、多くのパラメーターを最適化するので、プロセスの安定化のための堅牢なプログレッシブラーニング戦略を導入します。
実験により,困難条件下での正確な時空間キャリブレーションと高品質なシーン再構築を実現することができた。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion-Blurred Images [14.738528284246545]
CRiM-GS は textbfContinuous textbfRigid textbfMotion-aware textbfGaussian textbfSplatting である。
リアルタイムレンダリング速度を維持しながら、モーションブルーの画像から正確な3Dシーンを再構築する。
論文 参考訳(メタデータ) (2024-07-04T13:37:04Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。