論文の概要: AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2210.04216v5
- Date: Tue, 31 Oct 2023 12:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:31:24.257413
- Title: AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose
Estimation
- Title(参考訳): AMPose:3次元人物位置推定のための交互に混合したグローバルローカルアテンションモデル
- Authors: Hongxin Lin, Yunwei Chiu and Peiyuan Wu
- Abstract要約: 本研究では,3次元ポーズ推定に向けて,関節のグローバルな関係と物理的関係を結合する新しい手法を提案する。
AMPoseでは、トランスフォーマーエンコーダが各ジョイントを他のジョイントと接続するために適用され、GCNは物理的に接続された関係に関する情報を取得するために使用される。
また,MPI-INF-3DHPデータセットを用いて,より優れた一般化能力を示す。
- 参考スコア(独自算出の注目度): 2.9823712604345993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The graph convolutional networks (GCNs) have been applied to model the
physically connected and non-local relations among human joints for 3D human
pose estimation (HPE). In addition, the purely Transformer-based models
recently show promising results in video-based 3D HPE. However, the
single-frame method still needs to model the physically connected relations
among joints because the feature representations transformed only by global
relations via the Transformer neglect information on the human skeleton. To
deal with this problem, we propose a novel method in which the Transformer
encoder and GCN blocks are alternately stacked, namely AMPose, to combine the
global and physically connected relations among joints towards HPE. In the
AMPose, the Transformer encoder is applied to connect each joint with all the
other joints, while GCNs are applied to capture information on physically
connected relations. The effectiveness of our proposed method is evaluated on
the Human3.6M dataset. Our model also shows better generalization ability by
testing on the MPI-INF-3DHP dataset. Code can be retrieved at
https://github.com/erikervalid/AMPose.
- Abstract(参考訳): グラフ畳み込みネットワーク (GCN) は3次元ポーズ推定 (HPE) のためにヒト関節間の物理的に連結された非局所的な関係をモデル化するために応用されている。
さらに、トランスフォーマーベースのモデルは、最近ビデオベースの3D HPEの有望な結果を示している。
しかし, 単一フレーム法では, ヒト骨格のトランスフォーマー無視情報によってのみ, 特徴表現が大域的関係によってのみ変換されるため, 関節間の物理的結合関係をモデル化する必要がある。
この問題に対処するために,トランスフォーマーエンコーダとGCNブロックを交互に積み重ねた新しい手法,すなわちAMPoseを提案する。
AMPoseでは、トランスフォーマーエンコーダが各ジョイントと他のジョイントを接続するために使われ、GCNは物理的に接続された関係に関する情報を取得するために用いられる。
提案手法の有効性をhuman3.6mデータセットで評価した。
また,MPI-INF-3DHPデータセットを用いて,より優れた一般化能力を示す。
コードはhttps://github.com/erikervalid/AMPoseで検索できる。
関連論文リスト
- MotionAGFormer: Enhancing 3D Human Pose Estimation with a
Transformer-GCNFormer Network [2.7268855969580166]
本稿では、2つの並列トランスとGCNFormerストリームを用いてチャネル数を分割する新しいAttention-GCNFormerブロックを提案する。
提案するGCNFormerモジュールは, 隣接する接合部間の局所的関係を利用して, トランス出力を補完する新しい表現を出力する。
我々は、Human3.6MとMPI-INF-3DHPの2つの人気のあるベンチマークデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2023-10-25T01:46:35Z) - Joint-Relation Transformer for Multi-Person Motion Prediction [79.08243886832601]
相互作用モデリングの強化を目的とした結合関係変換器を提案する。
提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
論文 参考訳(メタデータ) (2023-08-09T09:02:47Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - Jointformer: Single-Frame Lifting Transformer with Error Prediction and
Refinement for 3D Human Pose Estimation [11.592567773739407]
人間の3次元ポーズ推定技術は、人間の動きデータの可用性を大幅に向上させる可能性がある。
シングルイメージ2D-3Dリフトの最高の性能モデルは、通常、異なる体節間の関係を定義するために手動入力を必要とするグラフ畳み込みネットワーク(GCN)を使用する。
より一般化された自己認識機構を用いてこれらの関係を学習するトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T12:07:19Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。