論文の概要: Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs
- arxiv url: http://arxiv.org/abs/2404.17837v1
- Date: Sat, 27 Apr 2024 09:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:01:27.419219
- Title: Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs
- Title(参考訳): モノクロ映像とスパースIMUを用いたハイブリッド3次元人物位置推定
- Authors: Yiming Bao, Xu Zhao, Dahong Qian,
- Abstract要約: モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
- 参考スコア(独自算出の注目度): 15.017274891943162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal 3D human pose estimation from monocular videos is a challenging task in human-centered computer vision due to the depth ambiguity of 2D-to-3D lifting. To improve accuracy and address occlusion issues, inertial sensor has been introduced to provide complementary source of information. However, it remains challenging to integrate heterogeneous sensor data for producing physically rational 3D human poses. In this paper, we propose a novel framework, Real-time Optimization and Fusion (RTOF), to address this issue. We first incorporate sparse inertial orientations into a parametric human skeleton to refine 3D poses in kinematics. The poses are then optimized by energy functions built on both visual and inertial observations to reduce the temporal jitters. Our framework outputs smooth and biomechanically plausible human motion. Comprehensive experiments with ablation studies demonstrate its rationality and efficiency. On Total Capture dataset, the pose estimation error is significantly decreased compared to the baseline method.
- Abstract(参考訳): モノクロビデオからの時間的3次元ポーズ推定は、2D-to-3Dリフトの深さあいまいさのため、人間中心のコンピュータビジョンでは難しい課題である。
精度の向上と閉塞問題への対処のために,情報ソースを補完する慣性センサが導入された。
しかし、物理的に合理的な3Dポーズを生成するために異種センサデータを統合することは依然として困難である。
本稿では,この問題に対処するための新しいフレームワークであるリアルタイム最適化・融合(RTOF)を提案する。
運動学の3Dポーズを洗練させるために,まず,スパース慣性配向をパラメトリックな人間の骨格に組み入れた。
ポーズは、時間的ジッタを減らすために、視覚と慣性の両方の観測に基づいて構築されたエネルギー関数によって最適化される。
我々の枠組みはスムーズでバイオメカニカルな人間の動きを出力する。
アブレーション研究による総合的な実験は、その合理性と効率を実証している。
また,Total Captureデータセットでは,ベースライン法に比べてポーズ推定誤差が有意に減少した。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。
動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。
本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文 参考訳(メタデータ) (2024-07-23T18:41:16Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion
Prior [7.157324258813676]
私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。
次に、空間時間層は、関節レベルの相関を学習するために設計される。
実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T08:15:11Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - 3D Skeleton-based Human Motion Prediction with Manifold-Aware GAN [3.1313293632309827]
本研究では,3次元骨格を用いた人体動作予測の新しい手法を提案する。
我々は,人間の運動の時間的および空間的依存を捉える,多様体を意識したワッサーシュタイン生成逆数モデルを構築した。
CMU MoCapとHuman 3.6Mデータセットで実験が行われた。
論文 参考訳(メタデータ) (2022-03-01T20:49:13Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。