論文の概要: TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting
- arxiv url: http://arxiv.org/abs/2309.07910v1
- Date: Thu, 14 Sep 2023 17:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 11:43:26.913024
- Title: TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting
- Title(参考訳): tempo: 効率的なマルチビューポーズ推定、追跡、予測
- Authors: Rohan Choudhury, Kris Kitani, Laszlo A. Jeni
- Abstract要約: 本稿では,頑健な時間的表現を学習する効率的な多視点ポーズ推定モデルを提案する。
我々のモデルは微調整なしでデータセットをまたいで一般化することができる。
- 参考スコア(独自算出の注目度): 27.3359362364858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing volumetric methods for predicting 3D human pose estimation are
accurate, but computationally expensive and optimized for single time-step
prediction. We present TEMPO, an efficient multi-view pose estimation model
that learns a robust spatiotemporal representation, improving pose accuracy
while also tracking and forecasting human pose. We significantly reduce
computation compared to the state-of-the-art by recurrently computing
per-person 2D pose features, fusing both spatial and temporal information into
a single representation. In doing so, our model is able to use spatiotemporal
context to predict more accurate human poses without sacrificing efficiency. We
further use this representation to track human poses over time as well as
predict future poses. Finally, we demonstrate that our model is able to
generalize across datasets without scene-specific fine-tuning. TEMPO achieves
10$\%$ better MPJPE with a 33$\times$ improvement in FPS compared to TesseTrack
on the challenging CMU Panoptic Studio dataset.
- Abstract(参考訳): 既存の3次元ポーズ推定手法は正確であるが、計算コストは高く、単一の時間ステップ予測に最適化されている。
我々は,人間のポーズを追跡・予測しながら,頑健な時空間表現を学習し,ポーズ精度を向上させる効率的な多視点ポーズ推定モデルであるtempoを提案する。
一人当たりの2dポーズ特徴を逐次計算し、空間的情報と時間的情報の両方を単一の表現に融合することにより、最先端と比較して計算量を大幅に削減する。
そこで本モデルでは,効率を犠牲にすることなく,時空間を用いてより正確な人間のポーズを予測できる。
我々はさらに、この表現を使って、人間のポーズを時間とともに追跡し、将来のポーズを予測する。
最後に、シーン固有の微調整なしでデータセットをまたいでモデルを一般化できることを実証する。
TEMPOは、挑戦的なCMU Panoptic Studioデータセット上のTesseTrackと比較して、33$\times$ FPSの改善で10$\%のMPJPEを達成している。
関連論文リスト
- AnyPose: Anytime 3D Human Pose Forecasting via Neural Ordinary
Differential Equations [2.7195102129095003]
AnyPoseは、ニューラルネットワークの常微分方程式で人間の振る舞いをモデル化する軽量な連続時間ニューラルネットワークアーキテクチャである。
これらの結果から,AnyPoseは将来予測の精度が高く,計算時間も従来の手法よりもかなり低いことがわかった。
論文 参考訳(メタデータ) (2023-09-09T16:59:57Z) - Self-supervised 3D Human Pose Estimation from a Single Image [1.0878040851638]
本研究では,1枚の画像から3次元人体ポーズを予測する自己教師型手法を提案する。
予測ネットワークは、典型的なポーズの人物と、未ペアの2Dポーズのセットを描写した未ラベル画像のデータセットから訓練される。
論文 参考訳(メタデータ) (2023-04-05T10:26:21Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Forecasting Characteristic 3D Poses of Human Actions [24.186058965796157]
本研究では,人物のモノクロ映像から特徴的3Dポーズを予測し,その人物の将来的な3Dポーズを,アクション定義可能な特徴的ポーズで予測するタスクを提案する。
我々は、目標指向行動からインスピレーションを得て、予測されたポーズを時間から切り離す意味論的に意味のあるポーズ予測タスクを定義する。
このデータセットを用いた実験により,提案手法は最先端手法を平均22%上回る確率的手法であることが示唆された。
論文 参考訳(メタデータ) (2020-11-30T18:20:17Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。