論文の概要: Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers
- arxiv url: http://arxiv.org/abs/2210.06110v2
- Date: Fri, 14 Oct 2022 09:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:32:30.733124
- Title: Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers
- Title(参考訳): uplift and upsample:アップリフト変圧器を用いた効率的な3次元ポーズ推定
- Authors: Moritz Einfalt, Katja Ludwig, Rainer Lienhart
- Abstract要約: 時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
- 参考スコア(独自算出の注目度): 28.586258731448687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art for monocular 3D human pose estimation in videos is
dominated by the paradigm of 2D-to-3D pose uplifting. While the uplifting
methods themselves are rather efficient, the true computational complexity
depends on the per-frame 2D pose estimation. In this paper, we present a
Transformer-based pose uplifting scheme that can operate on temporally sparse
2D pose sequences but still produce temporally dense 3D pose estimates. We show
how masked token modeling can be utilized for temporal upsampling within
Transformer blocks. This allows to decouple the sampling rate of input 2D poses
and the target frame rate of the video and drastically decreases the total
computational complexity. Additionally, we explore the option of pre-training
on large motion capture archives, which has been largely neglected so far. We
evaluate our method on two popular benchmark datasets: Human3.6M and
MPI-INF-3DHP. With an MPJPE of 45.0 mm and 46.9 mm, respectively, our proposed
method can compete with the state-of-the-art while reducing inference time by a
factor of 12. This enables real-time throughput with variable consumer hardware
in stationary and mobile applications. We release our code and models at
https://github.com/goldbricklemon/uplift-upsample-3dhpe
- Abstract(参考訳): ビデオにおけるモノラルな3Dポーズ推定の最先端は、2Dから3Dポーズアップリフトのパラダイムに支配されている。
アップリフトメソッド自体はかなり効率的であるが、真の計算複雑性はフレーム毎の2dポーズ推定に依存する。
本稿では, 時間的にスパースな2次元ポーズ列を操作できるが, 時間的に密な3次元ポーズ推定を生成できる変圧器ベースのポーズ上昇スキームを提案する。
トランスフォーマーブロック内のテンポラリアップサンプリングにマスクドトークンモデリングをどのように利用できるかを示す。
これにより、入力2Dポーズのサンプリングレートとビデオのターゲットフレームレートを分離し、全体的な計算複雑性を大幅に減らすことができる。
さらに,これまでほとんど無視されてきた大規模モーションキャプチャアーカイブの事前トレーニングオプションについても検討した。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
提案手法は,それぞれ45.0mm,46.9mmのmpjpeを用いて,推定時間を12倍に削減しつつ,最先端の手法と競合することができる。
これにより、定常およびモバイルアプリケーションにおける可変コンシューマハードウェアによるリアルタイムスループットが可能になる。
コードとモデルはhttps://github.com/goldbricklemon/uplift-upsample-3dhpeでリリースします。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。