論文の概要: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2302.01825v1
- Date: Fri, 3 Feb 2023 16:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 15:42:54.782695
- Title: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation
- Title(参考訳): hdformer: 3次元ポーズ推定のための高次指向トランス
- Authors: Hanyuan Chen, Jun-Yan He, Wangmeng Xiang, Wei Liu, Zhi-Qi Cheng,
Hanbing Liu, Bin Luo, Yifeng Geng, Xuansong Xie
- Abstract要約: HDFormerは、高階骨と関節の関連性を利用して、ポーズ推定のパフォーマンスを向上する。
提案したHDFormerは、textbf1/10$パラメータだけで優れた性能を実現し、現在のSOTAに比べて計算コストがはるかに低い。
- 参考スコア(独自算出の注目度): 20.38653024206933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation is a complicated structured data sequence modeling
task. Most existing methods only consider the pair-wise interaction of human
body joints in model learning. Unfortunately, this causes 3D pose estimation to
fail in difficult cases such as $\textit{joints overlapping}$, and pose
$\textit{fast-changing}$, as pair-wise relations cannot exploit fine-grained
human body priors in pose estimation. To this end, we revamped the 3D pose
estimation framework with a $\textit{High-order}$ $\textit{Directed}$
$\textit{Transformer}$ (HDFormer), which coherently exploits the high-order
bones and joints relevances to boost the performance of pose estimation.
Specifically, HDFormer adopts both self-attention and high-order attention
schemes to build up a multi-order attention module to perform the information
flow interaction including the first-order
$"\textit{joint$\leftrightarrow$joint}"$, second-order
$"\textit{bone$\leftrightarrow$joint}"$ as well as high-order
$"\textit{hyperbone$\leftrightarrow$joint}"$ relationships (hyperbone is
defined as a joint set), compensating the hard cases prediction in
fast-changing and heavy occlusion scenarios. Moreover, modernized CNN
techniques are applied to upgrade the transformer-based architecture to speed
up the HDFormer, achieving a favorable trade-off between effectiveness and
efficiency. We compare our model with other SOTA models on the datasets
Human3.6M and MPI-INF-3DHP. The results demonstrate that the proposed HDFormer
achieves superior performance with only $\textbf{1/10}$ parameters and much
lower computational cost compared to the current SOTAs. Moreover, HDFormer can
be applied to various types of real-world applications, enabling real-time and
accurate 3D pose estimation. The source code is in
https://github.com/hyer/HDFormer.
- Abstract(参考訳): 人間のポーズ推定は複雑な構造化データシーケンスモデリングタスクである。
既存の手法の多くは、モデル学習における人体関節のペアワイズ相互作用のみを考慮する。
残念なことに、3dのポーズ推定は$\textit{joints overlapping}$のような難しいケースでは失敗する。
この目的のために、我々は、$\textit{High-order}$ $\textit{Directed}$ $\textit{Transformer}$ (HDFormer)という3Dポーズ推定フレームワークを改訂した。
具体的には、HDFormerは、セルフアテンションと高階アテンションの両方を採用して、情報フローのインタラクションを実行するための多階アテンションモジュールを構築している。例えば、一階 $"\textit{joint$\leftrightarrow$joint}"$、二階 $"\textit{bone$\leftrightarrow$joint}"$、高階 $"\textit{hyperbone$\leftrightarrow$joint}"$リレーション(ハイパボーンはジョイントセットとして定義される)は、高速で重いオクルージョンシナリオにおけるハードケースの予測を補う。
さらに、近代化されたcnn技術を用いてトランスフォーマのアーキテクチャをアップグレードしてhdフォーマを高速化し、効率と効率のトレードオフを良好に実現している。
我々は,本モデルとHuman3.6MとMPI-INF-3DHPの他のSOTAモデルとの比較を行った。
その結果,提案したHDFormerは,$\textbf{1/10}$パラメータだけで優れた性能を示し,現在のSOTAに比べて計算コストもはるかに低いことがわかった。
さらに、hdformerは様々な実世界のアプリケーションに適用でき、リアルタイムかつ正確な3dポーズ推定を可能にする。
ソースコードはhttps://github.com/hyer/HDFormerにある。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文 参考訳(メタデータ) (2023-03-30T15:45:51Z) - HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose
Estimation [22.648409352844997]
我々は階層型空間時間変換器 (HSTFormer) を提案し, 高精度な3次元ポーズ推定のために, 多段階関節の時空間相関を局所的からグローバル的に徐々に捉えている。
HSTFormerは4つの変換器エンコーダ(TE)と1つの融合モジュールから構成される。
MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
論文 参考訳(メタデータ) (2023-01-18T05:54:02Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。