論文の概要: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2302.01825v2
- Date: Mon, 22 May 2023 06:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:19:12.932735
- Title: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation
- Title(参考訳): hdformer: 3次元ポーズ推定のための高次指向トランス
- Authors: Hanyuan Chen, Jun-Yan He, Wangmeng Xiang, Zhi-Qi Cheng, Wei Liu,
Hanbing Liu, Bin Luo, Yifeng Geng, Xuansong Xie
- Abstract要約: HDFormerは、Human3.6MとMPI-INF-3DHPデータセットの最先端(SOTA)モデルを大幅に上回っている。
HDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。
- 参考スコア(独自算出の注目度): 20.386530242069338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation is a challenging task due to its structured data
sequence nature. Existing methods primarily focus on pair-wise interaction of
body joints, which is insufficient for scenarios involving overlapping joints
and rapidly changing poses. To overcome these issues, we introduce a novel
approach, the High-order Directed Transformer (HDFormer), which leverages
high-order bone and joint relationships for improved pose estimation.
Specifically, HDFormer incorporates both self-attention and high-order
attention to formulate a multi-order attention module. This module facilitates
first-order "joint$\leftrightarrow$joint", second-order
"bone$\leftrightarrow$joint", and high-order "hyperbone$\leftrightarrow$joint"
interactions, effectively addressing issues in complex and occlusion-heavy
situations. In addition, modern CNN techniques are integrated into the
transformer-based architecture, balancing the trade-off between performance and
efficiency. HDFormer significantly outperforms state-of-the-art (SOTA) models
on Human3.6M and MPI-INF-3DHP datasets, requiring only 1/10 of the parameters
and significantly lower computational costs. Moreover, HDFormer demonstrates
broad real-world applicability, enabling real-time, accurate 3D pose
estimation. The source code is in https://github.com/hyer/HDFormer
- Abstract(参考訳): 人間のポーズ推定は、その構造化されたデータシーケンスの性質から、難しい課題である。
既存の方法は、主に、重なり合う関節と急速に変化するポーズを含むシナリオに不十分な身体関節のペアワイズ相互作用に焦点を当てている。
これらの課題を克服するために,高次骨と関節の関係を利用して姿勢推定を改善する高次指向トランス(hdformer)を提案する。
具体的には、HDFormerは、多階アテンションモジュールを定式化するために、自己注意と高階アテンションの両方を組み込んでいる。
このモジュールは、一階の"joint$\leftrightarrow$joint"、二階の"bone$\leftrightarrow$joint"、高階の"hyperbone$\leftrightarrow$joint"相互作用を促進し、複雑で閉塞性の高い状況における問題に効果的に対処する。
さらに、現代のcnn技術はトランスフォーマーベースのアーキテクチャに統合され、パフォーマンスと効率のトレードオフのバランスをとる。
hdformerは、human3.6mとmpi-inf-3dhpデータセットの最先端(sota)モデルを大幅に上回り、パラメータの1/10と計算コストを大幅に削減した。
さらにHDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。
ソースコードはhttps://github.com/hyer/hdformer
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文 参考訳(メタデータ) (2023-03-30T15:45:51Z) - HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose
Estimation [22.648409352844997]
我々は階層型空間時間変換器 (HSTFormer) を提案し, 高精度な3次元ポーズ推定のために, 多段階関節の時空間相関を局所的からグローバル的に徐々に捉えている。
HSTFormerは4つの変換器エンコーダ(TE)と1つの融合モジュールから構成される。
MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
論文 参考訳(メタデータ) (2023-01-18T05:54:02Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。