Fugu-MT 論文翻訳(概要): HDFormer: High-order Directed Transformer for 3D Human Pose Estimation

論文の概要: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2302.01825v2
Date: Mon, 22 May 2023 06:32:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 04:19:12.932735
Title: HDFormer: High-order Directed Transformer for 3D Human Pose Estimation
Title（参考訳）: hdformer: 3次元ポーズ推定のための高次指向トランス
Authors: Hanyuan Chen, Jun-Yan He, Wangmeng Xiang, Zhi-Qi Cheng, Wei Liu, Hanbing Liu, Bin Luo, Yifeng Geng, Xuansong Xie
Abstract要約: HDFormerは、Human3.6MとMPI-INF-3DHPデータセットの最先端(SOTA)モデルを大幅に上回っている。 HDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。
参考スコア（独自算出の注目度）: 20.386530242069338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human pose estimation is a challenging task due to its structured data sequence nature. Existing methods primarily focus on pair-wise interaction of body joints, which is insufficient for scenarios involving overlapping joints and rapidly changing poses. To overcome these issues, we introduce a novel approach, the High-order Directed Transformer (HDFormer), which leverages high-order bone and joint relationships for improved pose estimation. Specifically, HDFormer incorporates both self-attention and high-order attention to formulate a multi-order attention module. This module facilitates first-order "joint$\leftrightarrow$joint", second-order "bone$\leftrightarrow$joint", and high-order "hyperbone$\leftrightarrow$joint" interactions, effectively addressing issues in complex and occlusion-heavy situations. In addition, modern CNN techniques are integrated into the transformer-based architecture, balancing the trade-off between performance and efficiency. HDFormer significantly outperforms state-of-the-art (SOTA) models on Human3.6M and MPI-INF-3DHP datasets, requiring only 1/10 of the parameters and significantly lower computational costs. Moreover, HDFormer demonstrates broad real-world applicability, enabling real-time, accurate 3D pose estimation. The source code is in https://github.com/hyer/HDFormer
Abstract（参考訳）: 人間のポーズ推定は、その構造化されたデータシーケンスの性質から、難しい課題である。既存の方法は、主に、重なり合う関節と急速に変化するポーズを含むシナリオに不十分な身体関節のペアワイズ相互作用に焦点を当てている。これらの課題を克服するために,高次骨と関節の関係を利用して姿勢推定を改善する高次指向トランス(hdformer)を提案する。具体的には、HDFormerは、多階アテンションモジュールを定式化するために、自己注意と高階アテンションの両方を組み込んでいる。このモジュールは、一階の"joint$\leftrightarrow$joint"、二階の"bone$\leftrightarrow$joint"、高階の"hyperbone$\leftrightarrow$joint"相互作用を促進し、複雑で閉塞性の高い状況における問題に効果的に対処する。さらに、現代のcnn技術はトランスフォーマーベースのアーキテクチャに統合され、パフォーマンスと効率のトレードオフのバランスをとる。 hdformerは、human3.6mとmpi-inf-3dhpデータセットの最先端(sota)モデルを大幅に上回り、パラメータの1/10と計算コストを大幅に削減した。さらにHDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。ソースコードはhttps://github.com/hyer/hdformer

関連論文リスト

H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文参考訳（メタデータ） (2025-08-05T05:56:30Z)
SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。 2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-30T06:15:36Z)
Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文参考訳（メタデータ） (2024-10-06T18:15:27Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-26T00:08:29Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。 PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文参考訳（メタデータ） (2023-03-30T15:45:51Z)
HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose Estimation [22.648409352844997]
我々は階層型空間時間変換器 (HSTFormer) を提案し, 高精度な3次元ポーズ推定のために, 多段階関節の時空間相関を局所的からグローバル的に徐々に捉えている。 HSTFormerは4つの変換器エンコーダ(TE)と1つの融合モジュールから構成される。 MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
論文参考訳（メタデータ） (2023-01-18T05:54:02Z)
AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文参考訳（メタデータ） (2022-10-08T12:54:20Z)
LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。 BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2022-03-21T03:35:32Z)
3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文参考訳（メタデータ） (2021-03-18T18:14:37Z)
HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。 HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2020-08-01T07:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。