論文の概要: Quater-GCN: Enhancing 3D Human Pose Estimation with Orientation and Semi-supervised Training
- arxiv url: http://arxiv.org/abs/2404.19279v3
- Date: Fri, 11 Oct 2024 11:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:27.821447
- Title: Quater-GCN: Enhancing 3D Human Pose Estimation with Orientation and Semi-supervised Training
- Title(参考訳): Quater-GCN: オリエンテーションと半教師ありトレーニングによる3次元人文推定の強化
- Authors: Xingyu Song, Zhan Li, Shi Chen, Kazuyuki Demachi,
- Abstract要約: 本稿では,向きによるポーズ推定を強化するために,有向グラフ畳み込みネットワークであるQuater-GCNを紹介する。
Q-GCNは、座標を通してノード関節間の空間的依存関係をキャプチャするだけでなく、2次元空間における骨の回転の動的コンテキストを統合することで、排他的に優れている。
我々は,ラベルのないデータを活用する半教師付きトレーニング戦略でモデルを補完する。
- 参考スコア(独自算出の注目度): 11.4616369582769
- License:
- Abstract: 3D human pose estimation is a vital task in computer vision, involving the prediction of human joint positions from images or videos to reconstruct a skeleton of a human in three-dimensional space. This technology is pivotal in various fields, including animation, security, human-computer interaction, and automotive safety, where it promotes both technological progress and enhanced human well-being. The advent of deep learning significantly advances the performance of 3D pose estimation by incorporating temporal information for predicting the spatial positions of human joints. However, traditional methods often fall short as they primarily focus on the spatial coordinates of joints and overlook the orientation and rotation of the connecting bones, which are crucial for a comprehensive understanding of human pose in 3D space. To address these limitations, we introduce Quater-GCN (Q-GCN), a directed graph convolutional network tailored to enhance pose estimation by orientation. Q-GCN excels by not only capturing the spatial dependencies among node joints through their coordinates but also integrating the dynamic context of bone rotations in 2D space. This approach enables a more sophisticated representation of human poses by also regressing the orientation of each bone in 3D space, moving beyond mere coordinate prediction. Furthermore, we complement our model with a semi-supervised training strategy that leverages unlabeled data, addressing the challenge of limited orientation ground truth data. Through comprehensive evaluations, Q-GCN has demonstrated outstanding performance against current state-of-the-art methods.
- Abstract(参考訳): 3次元人間のポーズ推定は、画像やビデオから人間の関節の位置を予測し、3次元空間で人間の骨格を再構築するコンピュータビジョンにおいて重要なタスクである。
この技術は、アニメーション、セキュリティ、人間とコンピュータのインタラクション、自動車の安全性など、様々な分野において中心的であり、技術進歩と人間の幸福の向上の両方を促進する。
深層学習の出現は、人間の関節の空間的位置を予測するための時間情報を導入して、3次元ポーズ推定の性能を著しく向上させる。
しかし、従来の手法は、主に関節の空間座標に焦点をあて、連結骨の向きと回転を見渡すため、しばしば不足する。
これらの制約に対処するために、向きによるポーズ推定を強化するように調整された有向グラフ畳み込みネットワークであるQuater-GCN(Q-GCN)を導入する。
Q-GCNは、座標を通してノード関節間の空間的依存関係をキャプチャするだけでなく、2次元空間における骨の回転の動的コンテキストを統合することで、排他的に優れている。
このアプローチにより、人間のポーズをより洗練された表現が可能となり、3次元空間における各骨の向きを後退させ、単なる座標予測を超えて移動させる。
さらに,本モデルとラベルなしデータを活用した半教師付きトレーニング戦略を補完し,限定的な向き付け基底真理データの課題に対処する。
総合的な評価を通じて、Q-GCNは現在の最先端手法に対して優れた性能を示した。
関連論文リスト
- 3D-UGCN: A Unified Graph Convolutional Network for Robust 3D Human Pose Estimation from Monocular RGB Images [17.673385426594418]
本稿では,空間時間グラフ畳み込みネットワーク(UGCN)に基づく改良手法を提案する。
ネットワークが3次元人間のポーズデータを処理し、3次元人間のポーズスケルトン配列を改善するための改良Nを提案する。
論文 参考訳(メタデータ) (2024-07-23T02:50:27Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。
具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。
提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。
本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。
我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文 参考訳(メタデータ) (2022-04-04T06:58:15Z) - Learning Dynamical Human-Joint Affinity for 3D Pose Estimation in Videos [47.601288796052714]
Graph Convolution Network (GCN)は、ビデオにおける3次元人間のポーズ推定に成功している。
新しい動的グラフネットワーク(DGNet)は、ビデオから空間的・時間的関節関係を適応的に学習することにより、3次元のポーズを推定できる。
論文 参考訳(メタデータ) (2021-09-15T15:06:19Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Graph and Temporal Convolutional Networks for 3D Multi-person Pose
Estimation in Monocular Videos [33.974241749058585]
本稿では, グラフ畳み込みネットワーク(GCN)と時間畳み込みネットワーク(TCN)を統合し, カメラ中心のマルチパーソナライズされた3Dポーズを頑健に推定するフレームワークを提案する。
特に,姿勢推定結果を改善するために,2次元ポーズ推定器の信頼度スコアを用いたヒューマンジョイントgcnを提案する。
2つのGCNが連携して空間的なフレーム回りの3Dポーズを推定し、ターゲットフレーム内の可視関節情報と骨情報の両方を使用して、人の一部または欠落した情報を推定します。
論文 参考訳(メタデータ) (2020-12-22T03:01:19Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。