論文の概要: Masked Modeling for Human Motion Recovery Under Occlusions
- arxiv url: http://arxiv.org/abs/2601.16079v1
- Date: Thu, 22 Jan 2026 16:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.648307
- Title: Masked Modeling for Human Motion Recovery Under Occlusions
- Title(参考訳): 咬合下での人間の運動回復のためのマスケッドモデリング
- Authors: Zhiyin Qian, Siwei Zhang, Bharat Lal Bhatnagar, Federica Bogo, Siyu Tang,
- Abstract要約: MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
- 参考スコア(独自算出の注目度): 21.05382087890133
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human motion reconstruction from monocular videos is a fundamental challenge in computer vision, with broad applications in AR/VR, robotics, and digital content creation, but remains challenging under frequent occlusions in real-world settings.Existing regression-based methods are efficient but fragile to missing observations, while optimization- and diffusion-based approaches improve robustness at the cost of slow inference speed and heavy preprocessing steps. To address these limitations, we leverage recent advances in generative masked modeling and present MoRo: Masked Modeling for human motion Recovery under Occlusions. MoRo is an occlusion-robust, end-to-end generative framework that formulates motion reconstruction as a video-conditioned task, and efficiently recover human motion in a consistent global coordinate system from RGB videos. By masked modeling, MoRo naturally handles occlusions while enabling efficient, end-to-end inference. To overcome the scarcity of paired video-motion data, we design a cross-modality learning scheme that learns multi-modal priors from a set of heterogeneous datasets: (i) a trajectory-aware motion prior trained on MoCap datasets, (ii) an image-conditioned pose prior trained on image-pose datasets, capturing diverse per-frame poses, and (iii) a video-conditioned masked transformer that fuses motion and pose priors, finetuned on video-motion datasets to integrate visual cues with motion dynamics for robust inference. Extensive experiments on EgoBody and RICH demonstrate that MoRo substantially outperforms state-of-the-art methods in accuracy and motion realism under occlusions, while performing on-par in non-occluded scenarios. MoRo achieves real-time inference at 70 FPS on a single H200 GPU.
- Abstract(参考訳): AR/VR、ロボティクス、デジタルコンテンツ制作に広く応用されているコンピュータビジョンにおいて、モノキュラービデオからの人間の動きの再構築は基本的な課題であるが、現実の環境では頻繁に排除されているため、既存の回帰ベースの手法は効率的だが、観察の欠如に対して脆弱である一方、最適化と拡散に基づくアプローチは、推論速度と重い前処理ステップのコストで堅牢性を改善する。
これらの制約に対処するために、我々は生成マスクモデリングの最近の進歩を活用し、現在MoRo: Masked Modeling for Human Motion Recovery under Occlusions。
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化し、RGBビデオから一貫したグローバル座標系における人間の動きを効率よく回収する、オクルージョンロバストでエンドツーエンドな生成フレームワークである。
マスク付きモデリングによって、MoRoは自然にオクルージョンを処理し、効率的でエンドツーエンドの推論を可能にする。
ペアビデオモーションデータの不足を克服するために、異種データセットの集合からマルチモーダル先行を学習するクロスモーダル学習スキームを設計する。
i) MoCapデータセットで事前訓練された軌跡認識動作
(ii)画像目的データセットで事前訓練された画像条件付きポーズ、多彩なフレーム毎のポーズ、
三 動きを融合させ、先行動作を呈示する映像調和型マスク型トランスフォーマーで、ビデオモーションデータセットを微調整して、動きのダイナミックスと頑健な推論を融合させる。
EgoBody と RICH の大規模な実験により、MoRo は非閉塞シナリオでオンパーを実行しながら、オクルージョン下での精度と運動リアリズムにおいて最先端の手法を大幅に上回っていることが示された。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
関連論文リスト
- MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation [44.524568858995586]
MotionRAGは、関連する参照ビデオから動きの先行を適応させることで、モーションリアリズムを強化する検索強化フレームワークである。
提案手法は,複数のドメインや様々なベースモデルに対して,推論時の計算オーバーヘッドを無視できるような大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T15:26:04Z) - Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.784542628690794]
画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。
本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。
我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文 参考訳(メタデータ) (2025-08-03T16:44:24Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。
提案手法は,高品質な視覚的結果と効率的な推論を両立させる。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-03-13T06:43:21Z) - Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。