論文の概要: Towards Precise 3D Human Pose Estimation with Multi-Perspective
Spatial-Temporal Relational Transformers
- arxiv url: http://arxiv.org/abs/2401.16700v1
- Date: Tue, 30 Jan 2024 03:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:17:47.617655
- Title: Towards Precise 3D Human Pose Estimation with Multi-Perspective
Spatial-Temporal Relational Transformers
- Title(参考訳): マルチパースペクティブな空間-時間関係変換器を用いた高精度3次元ポーズ推定法
- Authors: Jianbin Jiao, Xina Cheng, Weijie Chen, Xiaoting Yin, Hao Shi, Kailun
Yang
- Abstract要約: 人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。
- 参考スコア(独自算出の注目度): 30.079169144728294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation captures the human joint points in three-dimensional
space while keeping the depth information and physical structure. That is
essential for applications that require precise pose information, such as
human-computer interaction, scene understanding, and rehabilitation training.
Due to the challenges in data collection, mainstream datasets of 3D human pose
estimation are primarily composed of multi-view video data collected in
laboratory environments, which contains rich spatial-temporal correlation
information besides the image frame content. Given the remarkable
self-attention mechanism of transformers, capable of capturing the
spatial-temporal correlation from multi-view video datasets, we propose a
multi-stage framework for 3D sequence-to-sequence (seq2seq) human pose
detection. Firstly, the spatial module represents the human pose feature by
intra-image content, while the frame-image relation module extracts temporal
relationships and 3D spatial positional relationship features between the
multi-perspective images. Secondly, the self-attention mechanism is adopted to
eliminate the interference from non-human body parts and reduce computing
resources. Our method is evaluated on Human3.6M, a popular 3D human pose
detection dataset. Experimental results demonstrate that our approach achieves
state-of-the-art performance on this dataset.
- Abstract(参考訳): 3次元人間のポーズ推定は、深度情報と物理的構造を保持しながら、3次元空間における人間の関節点をキャプチャする。
これは、人間とコンピュータのインタラクション、シーン理解、リハビリテーショントレーニングなど、正確なポーズ情報を必要とするアプリケーションに必須である。
データ収集の難しさから、3次元人物ポーズ推定のメインストリームデータセットは、主に実験環境で収集されたマルチビュービデオデータで構成されており、画像フレームの内容に加えて、リッチな空間-時間相関情報を含んでいる。
多視点ビデオデータセットから空間時間相関を捉えることができるトランスフォーマーの顕著な自己注意機構を考慮し,人間のポーズ検出のための多段階フレームワークを提案する。
まず、空間モジュールは、画像内コンテンツによる人間のポーズ特徴を表現し、フレーム画像関連モジュールは、多視点画像間の時間的関係と3次元空間的位置関係特徴を抽出する。
第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。
本手法は,一般的な3次元ポーズ検出データセットであるhuman3.6mを用いて評価する。
実験により,本データセットの最先端性能が得られた。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Graph and Temporal Convolutional Networks for 3D Multi-person Pose
Estimation in Monocular Videos [33.974241749058585]
本稿では, グラフ畳み込みネットワーク(GCN)と時間畳み込みネットワーク(TCN)を統合し, カメラ中心のマルチパーソナライズされた3Dポーズを頑健に推定するフレームワークを提案する。
特に,姿勢推定結果を改善するために,2次元ポーズ推定器の信頼度スコアを用いたヒューマンジョイントgcnを提案する。
2つのGCNが連携して空間的なフレーム回りの3Dポーズを推定し、ターゲットフレーム内の可視関節情報と骨情報の両方を使用して、人の一部または欠落した情報を推定します。
論文 参考訳(メタデータ) (2020-12-22T03:01:19Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。