論文の概要: Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera
- arxiv url: http://arxiv.org/abs/2412.12861v2
- Date: Wed, 18 Dec 2024 21:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:41.534395
- Title: Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera
- Title(参考訳): Dyn-HaMR:ダイナミックカメラから4Dインタラクションハンドモーションを復元
- Authors: Zhengdi Yu, Stefanos Zafeiriou, Tolga Birdal,
- Abstract要約: Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
- 参考スコア(独自算出の注目度): 49.82535393220003
- License:
- Abstract: We propose Dyn-HaMR, to the best of our knowledge, the first approach to reconstruct 4D global hand motion from monocular videos recorded by dynamic cameras in the wild. Reconstructing accurate 3D hand meshes from monocular videos is a crucial task for understanding human behaviour, with significant applications in augmented and virtual reality (AR/VR). However, existing methods for monocular hand reconstruction typically rely on a weak perspective camera model, which simulates hand motion within a limited camera frustum. As a result, these approaches struggle to recover the full 3D global trajectory and often produce noisy or incorrect depth estimations, particularly when the video is captured by dynamic or moving cameras, which is common in egocentric scenarios. Our Dyn-HaMR consists of a multi-stage, multi-objective optimization pipeline, that factors in (i) simultaneous localization and mapping (SLAM) to robustly estimate relative camera motion, (ii) an interacting-hand prior for generative infilling and to refine the interaction dynamics, ensuring plausible recovery under (self-)occlusions, and (iii) hierarchical initialization through a combination of state-of-the-art hand tracking methods. Through extensive evaluations on both in-the-wild and indoor datasets, we show that our approach significantly outperforms state-of-the-art methods in terms of 4D global mesh recovery. This establishes a new benchmark for hand motion reconstruction from monocular video with moving cameras. Our project page is at https://dyn-hamr.github.io/.
- Abstract(参考訳): そこで我々はDyn-HaMRを提案する。Dyn-HaMRは自然界のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築するための最初のアプローチである。
モノクロビデオから正確な3Dハンドメッシュを再構築することは、人間の振る舞いを理解する上で重要なタスクであり、拡張現実と仮想現実(AR/VR)に大きな応用がある。
しかし、既存のモノクルハンド再構成法は、通常は、限られたカメラフラストラム内での手の動きをシミュレートする弱い視点カメラモデルに依存している。
その結果、これらの手法は完全な3D世界軌道の回復に苦慮し、特にビデオがダイナミックカメラや移動カメラによって捉えられたとき、しばしばノイズや不正確な深度推定を発生させる。
我々のDyn-HaMRは多段階多目的最適化パイプラインで構成されており、このパイプラインは要因となる。
一 相対カメラの動きを頑健に推定するための同時位置決めマッピング(SLAM)
(二) 生成的埋入前と相互作用のダイナミクスを洗練させ、(自己)介在下での確実な回復を確保するための相互作用ハンド
三 最先端手追跡法の組み合わせによる階層的初期化。
室内および室内の両方のデータセットに対する広範囲な評価により,本手法は4次元メッシュの回復率において最先端の手法を著しく上回っていることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
私たちのプロジェクトページはhttps://dyn-hamr.github.io/です。
関連論文リスト
- Motion Diffusion-Guided 3D Global HMR from a Dynamic Camera [3.6948631725065355]
拡散最適化を用いた新しい3次元大域HMR法DiffOptを提案する。
我々の重要な洞察は、動き拡散モデル(MDM)のような人間の動き生成の最近の進歩は、コヒーレントな人間の動きの強い先行を含むことである。
我々はDiffOptをGlobal 3D Human Pose and Shape in the Wildの電磁データベースからビデオシーケンスで検証した。
論文 参考訳(メタデータ) (2024-11-15T21:09:40Z) - UniHOI: Learning Fast, Dense and Generalizable 4D Reconstruction for Egocentric Hand Object Interaction Videos [25.41337525728398]
密集した4次元再構成に必要な全ての変数を統一するモデルであるUniHOIを導入する。
UniHOIは、動きの存在下で、高速で密度が高く、一般的な単眼的なHOIシーンを再構築するための最初のアプローチである。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。