論文の概要: WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion
- arxiv url: http://arxiv.org/abs/2312.07531v2
- Date: Thu, 18 Apr 2024 19:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 19:57:15.222285
- Title: WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion
- Title(参考訳): WHAM:正確な3Dモーションで世界の人間を再構築する
- Authors: Soyong Shin, Juyong Kim, Eni Halilaj, Michael J. Black,
- Abstract要約: WHAM(World-grounded Humans with Accurate Motion)は、ビデオから世界座標系で3次元の人間の動きを再構成する。
SLAM法から推定されるカメラ角速度と人間の動きを用いて、身体のグローバルな軌跡を推定する。
複数のWildベンチマークで、既存の3Dモーションリカバリ手法よりも優れています。
- 参考スコア(独自算出の注目度): 43.95997922499137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The estimation of 3D human motion from video has progressed rapidly but current methods still have several key limitations. First, most methods estimate the human in camera coordinates. Second, prior work on estimating humans in global coordinates often assumes a flat ground plane and produces foot sliding. Third, the most accurate methods rely on computationally expensive optimization pipelines, limiting their use to offline applications. Finally, existing video-based methods are surprisingly less accurate than single-frame methods. We address these limitations with WHAM (World-grounded Humans with Accurate Motion), which accurately and efficiently reconstructs 3D human motion in a global coordinate system from video. WHAM learns to lift 2D keypoint sequences to 3D using motion capture data and fuses this with video features, integrating motion context and visual information. WHAM exploits camera angular velocity estimated from a SLAM method together with human motion to estimate the body's global trajectory. We combine this with a contact-aware trajectory refinement method that lets WHAM capture human motion in diverse conditions, such as climbing stairs. WHAM outperforms all existing 3D human motion recovery methods across multiple in-the-wild benchmarks. Code will be available for research purposes at http://wham.is.tue.mpg.de/
- Abstract(参考訳): 映像からの3次元人間の動きの推定は急速に進んでいるが、現在の手法にはいくつかの重要な制限がある。
第一に、ほとんどの方法は、カメラ座標における人間を推定する。
第二に、地球座標で人間を推定する先行研究は、しばしば平らな地面平面を仮定し、足の滑りを発生させる。
第三に、最も正確な方法は計算コストのかかる最適化パイプラインに依存し、オフラインアプリケーションでの使用を制限する。
最後に、既存のビデオベースの手法はシングルフレーム方式よりも驚くほど正確ではない。
これらの制限をWHAM(World-grounded Humans with Accurate Motion)で解決し,映像から世界座標系における3次元人間の動きを高精度かつ効率的に再構築する。
WHAMはモーションキャプチャデータを使用して2Dキーポイントシーケンスを3Dに引き上げることを学び、動画機能と融合し、モーションコンテキストと視覚情報を統合する。
WHAMは、SLAM法から推定されるカメラ角速度と人間の動きを利用して、身体のグローバルな軌道を推定する。
我々はこれを、WHAMが階段を登るなど様々な条件で人間の動きを捉えることのできる接触認識軌道修正法と組み合わせる。
WHAMは、既存の3Dモーションリカバリ手法を、複数のWildベンチマークで上回っている。
コードは http://wham.is.tue.mpg.de/ で研究目的で利用可能になる。
関連論文リスト
- World-Grounded Human Motion Recovery via Gravity-View Coordinates [60.618543026949226]
本研究では,新しい重力-視座標系における人間のポーズ推定手法を提案する。
提案したGVシステムは、ビデオフレーム毎に自然に重力に整合し、一意に定義されている。
提案手法は,カメラ空間と地上設定の両方でよりリアルな動きを再現し,精度と速度の両方で最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-09-10T17:25:47Z) - TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D
Environments [106.80978555346958]
現在の方法では、地球上の座標で動く人間を確実に推定することはできない。
TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初の1段階の手法である。
トラッキングとHPSベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-05T13:00:44Z) - Markerless 3D human pose tracking through multiple cameras and AI:
Enabling high accuracy, robustness, and real-time performance [0.0]
リアルタイムに3Dの人間の動きを追跡することは、多くの分野にわたる多くのアプリケーションにとって不可欠である。
人工知能の最近の進歩はマーカーレスソリューションを可能にしている。
本稿では,マルチカメラビューと2次元AIに基づくポーズ推定手法を組み合わせたマーカーレスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T15:06:50Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Human POSEitioning System (HPS): 3D Human Pose Estimation and
Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。
最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。
hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文 参考訳(メタデータ) (2021-03-31T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。