論文の概要: Towards Precise 3D Human Pose Estimation with Multi-Perspective
Spatial-Temporal Relational Transformers
- arxiv url: http://arxiv.org/abs/2401.16700v1
- Date: Tue, 30 Jan 2024 03:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:17:47.617655
- Title: Towards Precise 3D Human Pose Estimation with Multi-Perspective
Spatial-Temporal Relational Transformers
- Title(参考訳): マルチパースペクティブな空間-時間関係変換器を用いた高精度3次元ポーズ推定法
- Authors: Jianbin Jiao, Xina Cheng, Weijie Chen, Xiaoting Yin, Hao Shi, Kailun
Yang
- Abstract要約: 人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。
- 参考スコア(独自算出の注目度): 30.079169144728294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation captures the human joint points in three-dimensional
space while keeping the depth information and physical structure. That is
essential for applications that require precise pose information, such as
human-computer interaction, scene understanding, and rehabilitation training.
Due to the challenges in data collection, mainstream datasets of 3D human pose
estimation are primarily composed of multi-view video data collected in
laboratory environments, which contains rich spatial-temporal correlation
information besides the image frame content. Given the remarkable
self-attention mechanism of transformers, capable of capturing the
spatial-temporal correlation from multi-view video datasets, we propose a
multi-stage framework for 3D sequence-to-sequence (seq2seq) human pose
detection. Firstly, the spatial module represents the human pose feature by
intra-image content, while the frame-image relation module extracts temporal
relationships and 3D spatial positional relationship features between the
multi-perspective images. Secondly, the self-attention mechanism is adopted to
eliminate the interference from non-human body parts and reduce computing
resources. Our method is evaluated on Human3.6M, a popular 3D human pose
detection dataset. Experimental results demonstrate that our approach achieves
state-of-the-art performance on this dataset.
- Abstract(参考訳): 3次元人間のポーズ推定は、深度情報と物理的構造を保持しながら、3次元空間における人間の関節点をキャプチャする。
これは、人間とコンピュータのインタラクション、シーン理解、リハビリテーショントレーニングなど、正確なポーズ情報を必要とするアプリケーションに必須である。
データ収集の難しさから、3次元人物ポーズ推定のメインストリームデータセットは、主に実験環境で収集されたマルチビュービデオデータで構成されており、画像フレームの内容に加えて、リッチな空間-時間相関情報を含んでいる。
多視点ビデオデータセットから空間時間相関を捉えることができるトランスフォーマーの顕著な自己注意機構を考慮し,人間のポーズ検出のための多段階フレームワークを提案する。
まず、空間モジュールは、画像内コンテンツによる人間のポーズ特徴を表現し、フレーム画像関連モジュールは、多視点画像間の時間的関係と3次元空間的位置関係特徴を抽出する。
第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。
本手法は,一般的な3次元ポーズ検出データセットであるhuman3.6mを用いて評価する。
実験により,本データセットの最先端性能が得られた。
関連論文リスト
- Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Graph and Temporal Convolutional Networks for 3D Multi-person Pose
Estimation in Monocular Videos [33.974241749058585]
本稿では, グラフ畳み込みネットワーク(GCN)と時間畳み込みネットワーク(TCN)を統合し, カメラ中心のマルチパーソナライズされた3Dポーズを頑健に推定するフレームワークを提案する。
特に,姿勢推定結果を改善するために,2次元ポーズ推定器の信頼度スコアを用いたヒューマンジョイントgcnを提案する。
2つのGCNが連携して空間的なフレーム回りの3Dポーズを推定し、ターゲットフレーム内の可視関節情報と骨情報の両方を使用して、人の一部または欠落した情報を推定します。
論文 参考訳(メタデータ) (2020-12-22T03:01:19Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。