論文の概要: Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture
- arxiv url: http://arxiv.org/abs/2603.09681v1
- Date: Tue, 10 Mar 2026 13:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.349584
- Title: Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture
- Title(参考訳): マーカーレス単眼モーションキャプチャーにおける3次元足の運動再構成の改善
- Authors: Tom Wehrbein, Bodo Rosenhahn,
- Abstract要約: 最先端の方法では、Wildのビデオから正確な3Dの人体の動きを復元することができる。
彼らはしばしば、特に足の細かい関節を捉えるのに失敗し、歩行分析やアニメーションなどの応用に欠かせない。
このギャップを既存の人間の回復モデルにより推定された足の動きを洗練させるフットモーションリファインメント法であるフットMRを用いて解決する。
- 参考スコア(独自算出の注目度): 27.716195049685524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art methods can recover accurate overall 3D human body motion from in-the-wild videos. However, they often fail to capture fine-grained articulations, especially in the feet, which are critical for applications such as gait analysis and animation. This limitation results from training datasets with inaccurate foot annotations and limited foot motion diversity. We address this gap with FootMR, a Foot Motion Refinement method that refines foot motion estimated by an existing human recovery model through lifting 2D foot keypoint sequences to 3D. By avoiding direct image input, FootMR circumvents inaccurate image-3D annotation pairs and can instead leverage large-scale motion capture data. To resolve ambiguities of 2D-to-3D lifting, FootMR incorporates knee and foot motion as context and predicts only residual foot motion. Generalization to extreme foot poses is further improved by representing joints in global rather than parent-relative rotations and applying extensive data augmentation. To support evaluation of foot motion reconstruction, we introduce MOOF, a 2D dataset of complex foot movements. Experiments on MOOF, MOYO, and RICH show that FootMR outperforms state-of-the-art methods, reducing ankle joint angle error on MOYO by up to 30% over the best video-based approach.
- Abstract(参考訳): 最先端の方法では、Wildのビデオから正確な3Dの人体の動きを復元することができる。
しかし、歩行分析やアニメーションなどの応用に欠かせない、特に足のきめ細かい調音を捉えるのに失敗することが多い。
この制限は、不正確な足のアノテーションと足の動きの多様性を制限したデータセットのトレーニングの結果である。
このギャップを2Dフットキーポイントシーケンスを3Dに引き上げることで、既存の人間の回復モデルによって推定される足の動きを洗練するフットモーションリファインメント法であるフットMRで解決する。
直接画像入力を避けることで、フットMRは不正確な画像3Dアノテーションペアを回避し、代わりに大規模なモーションキャプチャデータを活用することができる。
2D-to-3Dリフトの曖昧さを解決するため、フットMRは膝と足の動きを文脈として取り入れ、足の動きのみを予測する。
極端フットポーズへの一般化は、親相対回転よりもグローバルな関節を表現し、広範なデータ拡張を適用することでさらに改善される。
足の運動再構成の評価を支援するために,複雑な足の動きの2次元データセットMOOFを導入する。
MOOF、MOYO、RICHの実験では、フットMRは最先端の手法よりも優れており、MoYOの足首関節角度誤差は最高のビデオベースアプローチよりも最大30%低減されている。
関連論文リスト
- Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - BioPose: Biomechanically-accurate 3D Pose Estimation from Monocular Videos [6.280386490530478]
BioPoseは、モノクロビデオから直接、生体力学的に正確な3Dポーズを予測するための学習ベースのフレームワークである。
マルチクエリヒューマンメッシュリカバリモデル(MQ-HMR)、ニューラル・インバース・キネマティクス(NeurIK)モデル、および2Dインフォームド・ポーズ・リファインメント技術を含んでいる。
ベンチマークデータセットの実験では、BioPoseが最先端の手法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2025-01-14T02:56:19Z) - Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - 3D Kinematics Estimation from Video with a Biomechanical Model and
Synthetic Training Data [4.130944152992895]
2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。
実験により, 提案手法は, 合成データにのみ訓練されたものであり, 従来の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-20T17:33:40Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。