論文の概要: Embodied Scene-aware Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.09106v1
- Date: Sat, 18 Jun 2022 03:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:08:19.119827
- Title: Embodied Scene-aware Human Pose Estimation
- Title(参考訳): 身体的シーン認識による人間のポーズ推定
- Authors: Zhengyi Luo, Shun Iwase, Ye Yuan, Kris Kitani
- Abstract要約: シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
- 参考スコア(独自算出の注目度): 25.094152307452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose embodied scene-aware human pose estimation where we estimate 3D
poses based on a simulated agent's proprioception and scene awareness, along
with external third-person observations. Unlike prior methods that often resort
to multistage optimization, non-causal inference, and complex contact modeling
to estimate human pose and human scene interactions, our method is one stage,
causal, and recovers global 3D human poses in a simulated environment. Since 2D
third-person observations are coupled with the camera pose, we propose to
disentangle the camera pose and use a multi-step projection gradient defined in
the global coordinate frame as the movement cue for our embodied agent.
Leveraging a physics simulation and prescanned scenes (e.g., 3D mesh), we
simulate our agent in everyday environments (libraries, offices, bedrooms,
etc.) and equip our agent with environmental sensors to intelligently navigate
and interact with scene geometries. Our method also relies only on 2D keypoints
and can be trained on synthetic datasets derived from popular human motion
databases. To evaluate, we use the popular H36M and PROX datasets and, for the
first time, achieve a success rate of 96.7% on the challenging PROX dataset
without ever using PROX motion sequences for training.
- Abstract(参考訳): 本研究では,エージェントの認識とシーン認識のシミュレーションと外部の第三者の観察に基づいて3dポーズを推定する,身体的シーン認識型人間のポーズ推定を提案する。
多段階最適化、非因果推論、複雑な接触モデルを用いて人間のポーズと人間のシーンの相互作用を推定する従来の手法とは異なり、本手法はシミュレーション環境でのグローバルな3次元人間のポーズを解析・復元する1段階である。
2次元の3人称観察はカメラのポーズと結合するため、カメラのポーズをアンタングルし、グローバル座標フレームで定義された多段階のプロジェクション勾配を具体化エージェントの移動キューとして用いることを提案する。
物理シミュレーションと事前スキャンされたシーン(例えば3Dメッシュ)を活用して、エージェントを日常の環境(図書館、オフィス、寝室など)でシミュレートし、エージェントに環境センサーを装着して、シーンのジオメトリをインテリジェントにナビゲートし、対話する。
また,本手法は2次元キーポイントのみに依存し,ヒトの動作データベースから合成データセットを学習することができる。
評価のために、人気のあるH36MデータセットとPROXデータセットを使用し、トレーニングにPROXモーションシーケンスを使用することなく、挑戦的なPROXデータセットで96.7%の成功率を達成した。
関連論文リスト
- WHAC: World-grounded Humans and Cameras [37.877565981937586]
我々は,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを共同で再現することを目指している。
WHACと呼ばれる新しいフレームワークを導入し、世界規模で表現された人間のポーズと形状の推定を容易にする。
我々は、正確に注釈付けされた人間とカメラを含む新しい合成データセットWHAC-A-Moleを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:58:02Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Human Pose Estimation in Monocular Omnidirectional Top-View Images [3.07869141026886]
全方位画像におけるキーポイント検出タスクのためのCNNのトレーニングと評価のための新しいデータセットを提案する。
トレーニングデータセットであるTheODORE+は50,000の画像で構成され、3Dレンダリングエンジンによって作成される。
評価のために、2つのシナリオと701フレーム、1シーンあたり最大8人までの実際のPoseFESデータセットをキャプチャして注釈付けした。
論文 参考訳(メタデータ) (2023-04-17T11:52:04Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Human POSEitioning System (HPS): 3D Human Pose Estimation and
Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。
最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。
hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文 参考訳(メタデータ) (2021-03-31T17:58:31Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。