Fugu-MT 論文翻訳(概要): MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

論文の概要: MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

arxiv url: http://arxiv.org/abs/2203.00859v1
Date: Wed, 2 Mar 2022 04:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-03 14:44:37.246221
Title: MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
Title（参考訳）: MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
Authors: Jinlu Zhang, Zhigang Tu, Jianyu Yang, Yujin Chen, Junsong Yuan
Abstract要約: 近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
参考スコア（独自算出の注目度）: 75.23812405203778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent transformer-based solutions have been introduced to estimate 3D human pose from 2D keypoint sequence by considering body joints among all frames globally to learn spatio-temporal correlation. We observe that the motions of different joints differ significantly. However, the previous methods cannot efficiently model the solid inter-frame correspondence of each joint, leading to insufficient learning of spatial-temporal correlation. We propose MixSTE (Mixed Spatio-Temporal Encoder), which has a temporal transformer block to separately model the temporal motion of each joint and a spatial transformer block to learn inter-joint spatial correlation. These two blocks are utilized alternately to obtain better spatio-temporal feature encoding. In addition, the network output is extended from the central frame to entire frames of the input video, thereby improving the coherence between the input and output sequences. Extensive experiments are conducted on three benchmarks (i.e. Human3.6M, MPI-INF-3DHP, and HumanEva) to evaluate the proposed method. The results show that our model outperforms the state-of-the-art approach by 10.9% P-MPJPE and 7.6% MPJPE on the Human3.6M dataset. Code is available in our supplementary materials.
Abstract（参考訳）: 近年,全フレームの身体関節を考慮した2次元キーポイントシーケンスから3次元人物ポーズを推定するトランスフォーマティブ・ソリューションが提案されている。異なる関節の運動が異なることが観察された。しかし,前者は各関節の立体的フレーム間対応を効率的にモデル化できないため,空間-時間相関の学習が不十分である。本研究では,各関節の時間運動を別々にモデル化する時間的トランスフォーマブロックと,空間的トランスフォーマブロックとを有するmixste(mixed spatio-temporal encoder)を提案する。これら2つのブロックは交互に利用され、時空間的特徴エンコーディングが向上する。さらに、ネットワーク出力は、入力ビデオの中央フレームから全体フレームに拡張され、入力シーケンスと出力シーケンスとのコヒーレンスが改善される。提案手法を評価するために,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマーク実験を行った。その結果,Human3.6Mデータセットでは,P-MPJPEが10.9%,MPJPEが7.6%向上した。コードは補足資料で利用可能です。

関連論文リスト

HGFreNet: Hop-hybrid GraphFomer for 3D Human Pose Estimation with Trajectory Consistency in Frequency Domain [11.236084559042135]
HGFreNetは、ホップハイブリッド機能アグリゲーションと3Dトラジェクトリ一貫性を備えた新しいGraphFormerアーキテクチャである。提案したHGFreNetは、位置精度と時間的整合性の観点から、最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2025-11-03T17:06:16Z)
An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文参考訳（メタデータ） (2025-09-01T03:34:57Z)
PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation [5.223657684081615]
既存の単眼的な3次元ポーズ推定法は, 骨格の内在方向と角方向の相関性を見越しながら, 関節位置の特徴に依存している。これらの課題に対処するためのPoseGRAFフレームワークを提案する。 Human3.6M と MPI-INF-3DHP のデータセットによる実験結果から,本手法が最先端の手法を超えることが示された。
論文参考訳（メタデータ） (2025-06-17T14:59:56Z)
Controllable Human-centric Keyframe Interpolation with Generative Prior [55.16558476905587]
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:50:05Z)
Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文参考訳（メタデータ） (2024-10-06T18:15:27Z)
SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文参考訳（メタデータ） (2024-04-19T04:51:18Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
Kinematic-aware Hierarchical Attention Network for Human Pose Estimation in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文参考訳（メタデータ） (2022-11-29T01:46:11Z)
(Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文参考訳（メタデータ） (2022-10-08T12:22:10Z)
Kinematics Modeling Network for Video-based Human Pose Estimation [9.506011491028891]
ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。関節は人間の動きの中で独立して動くのではなく協力する。関節間の時間的相関を明示的にモデル化するためのKMM(プラグイン・アンド・プレイ・キネマティクス・モデリング・モジュール)を提案する。
論文参考訳（メタデータ） (2022-07-22T09:37:48Z)
CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文参考訳（メタデータ） (2022-03-24T23:40:11Z)
Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。 3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2021-09-06T09:06:17Z)
Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。ビデオの時間情報を利用して自己着脱モジュールを提案する。本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文参考訳（メタデータ） (2021-03-26T00:02:19Z)
MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文参考訳（メタデータ） (2020-06-22T08:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。