論文の概要: MotionAGFormer: Enhancing 3D Human Pose Estimation with a
Transformer-GCNFormer Network
- arxiv url: http://arxiv.org/abs/2310.16288v1
- Date: Wed, 25 Oct 2023 01:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:18:36.559991
- Title: MotionAGFormer: Enhancing 3D Human Pose Estimation with a
Transformer-GCNFormer Network
- Title(参考訳): MotionAGFormer: Transformer-GCNFormer ネットワークによる3次元人物位置推定の実現
- Authors: Soroush Mehraban, Vida Adeli, Babak Taati
- Abstract要約: 本稿では、2つの並列トランスとGCNFormerストリームを用いてチャネル数を分割する新しいAttention-GCNFormerブロックを提案する。
提案するGCNFormerモジュールは, 隣接する接合部間の局所的関係を利用して, トランス出力を補完する新しい表現を出力する。
我々は、Human3.6MとMPI-INF-3DHPの2つの人気のあるベンチマークデータセットでモデルを評価する。
- 参考スコア(独自算出の注目度): 2.7268855969580166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent transformer-based approaches have demonstrated excellent performance
in 3D human pose estimation. However, they have a holistic view and by encoding
global relationships between all the joints, they do not capture the local
dependencies precisely. In this paper, we present a novel Attention-GCNFormer
(AGFormer) block that divides the number of channels by using two parallel
transformer and GCNFormer streams. Our proposed GCNFormer module exploits the
local relationship between adjacent joints, outputting a new representation
that is complementary to the transformer output. By fusing these two
representation in an adaptive way, AGFormer exhibits the ability to better
learn the underlying 3D structure. By stacking multiple AGFormer blocks, we
propose MotionAGFormer in four different variants, which can be chosen based on
the speed-accuracy trade-off. We evaluate our model on two popular benchmark
datasets: Human3.6M and MPI-INF-3DHP. MotionAGFormer-B achieves
state-of-the-art results, with P1 errors of 38.4mm and 16.2mm, respectively.
Remarkably, it uses a quarter of the parameters and is three times more
computationally efficient than the previous leading model on Human3.6M dataset.
Code and models are available at https://github.com/TaatiTeam/MotionAGFormer.
- Abstract(参考訳): 近年の変圧器に基づく手法は、3次元ポーズ推定において優れた性能を示している。
しかし、それらは全体論的な視点を持ち、すべてのジョイント間のグローバルな関係をエンコードすることで、局所的な依存関係を正確に捉えることはできない。
本稿では、2つの並列トランスとGCNFormerストリームを用いてチャネル数を分割する新しいAGFormer(Attention-GCNFormer)ブロックを提案する。
提案するGCNFormerモジュールは, 隣接する接合部間の局所的関係を利用して, トランス出力を補完する新しい表現を出力する。
これらの2つの表現を適応的に融合することにより、agformerは基礎となる3d構造をより良く学習する能力を示す。
複数のAGFormerブロックを積み重ねることで、4つの異なる変種でMotionAGFormerを提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つの人気のあるベンチマークデータセットでモデルを評価する。
MotionAGFormer-Bは、それぞれ38.4mmと16.2mmのP1エラーで最先端の結果を得る。
注目すべきは、パラメータの4分の1を使用し、前回のHuman3.6Mデータセットの3倍の計算効率である。
コードとモデルはhttps://github.com/TaatiTeam/MotionAGFormer.comで入手できる。
関連論文リスト
- SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose
Estimation [2.9823712604345993]
本研究では,3次元ポーズ推定に向けて,関節のグローバルな関係と物理的関係を結合する新しい手法を提案する。
AMPoseでは、トランスフォーマーエンコーダが各ジョイントを他のジョイントと接続するために適用され、GCNは物理的に接続された関係に関する情報を取得するために使用される。
また,MPI-INF-3DHPデータセットを用いて,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-09T10:10:13Z) - K-Order Graph-oriented Transformer with GraAttention for 3D Pose and
Shape Estimation [20.711789781518753]
KOG-Transformer というグラフ構造データに対する2次元から3次元のポーズ推定ネットワークを提案する。
また,GASE-Netという手動データのための3次元ポーズ・ツー・シェイプ推定ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-24T06:54:03Z) - Jointformer: Single-Frame Lifting Transformer with Error Prediction and
Refinement for 3D Human Pose Estimation [11.592567773739407]
人間の3次元ポーズ推定技術は、人間の動きデータの可用性を大幅に向上させる可能性がある。
シングルイメージ2D-3Dリフトの最高の性能モデルは、通常、異なる体節間の関係を定義するために手動入力を必要とするグラフ畳み込みネットワーク(GCN)を使用する。
より一般化された自己認識機構を用いてこれらの関係を学習するトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T12:07:19Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Mesh Graphormer [17.75480888764098]
グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。
論文 参考訳(メタデータ) (2021-04-01T06:16:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。