Fugu-MT 論文翻訳(概要): P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation

論文の概要: P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2203.07628v1
Date: Tue, 15 Mar 2022 04:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-16 14:52:53.297538
Title: P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation
Title（参考訳）: P-STMO:3次元人文推定のための事前学習型時空間多対一モデル
Authors: Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen Gao
Abstract要約: 本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
参考スコア（独自算出の注目度）: 78.83305967085413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel Pre-trained Spatial Temporal Many-to-One (P-STMO) model for 2D-to-3D human pose estimation task. To reduce the difficulty of capturing spatial and temporal information, we divide this task into two stages: pre-training (Stage I) and fine-tuning (Stage II). In Stage I, a self-supervised pre-training sub-task, termed masked pose modeling, is proposed. The human joints in the input sequence are randomly masked in both spatial and temporal domains. A general form of denoising auto-encoder is exploited to recover the original 2D poses and the encoder is capable of capturing spatial and temporal dependencies in this way. In Stage II, the pre-trained encoder is loaded to STMO model and fine-tuned. The encoder is followed by a many-to-one frame aggregator to predict the 3D pose in the current frame. Especially, an MLP block is utilized as the spatial feature extractor in STMO, which yields better performance than other methods. In addition, a temporal downsampling strategy is proposed to diminish data redundancy. Extensive experiments on two benchmarks show that our method outperforms state-of-the-art methods with fewer parameters and less computational overhead. For example, our P-STMO model achieves 42.1mm MPJPE on Human3.6M dataset when using 2D poses from CPN as inputs. Meanwhile, it brings a 1.5-7.1 times speedup to state-of-the-art methods. Code is available at https://github.com/paTRICK-swk/P-STMO.
Abstract（参考訳）: 本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。空間的・時間的情報収集の難しさを軽減するため,この課題を事前学習(ステップI)と微調整(ステップII)の2段階に分けた。第1段階では、マスク付きポーズモデリングと呼ばれる、自己教師付き事前学習サブタスクが提案されている。入力シーケンス内のヒト関節は、空間領域と時間領域の両方でランダムにマスクされる。一般的なオートエンコーダを用いて元の2Dポーズを復元し、この方法で空間的および時間的依存関係をキャプチャすることができる。ステージIIでは、事前訓練されたエンコーダがSTMOモデルにロードされ、微調整される。エンコーダには、現在のフレーム内の3Dポーズを予測する多対一のフレームアグリゲータが続く。特に、MLPブロックをSTMOの空間特徴抽出器として利用し、他の方法よりも優れた性能が得られる。さらに,データ冗長性を低下させるため,時間的ダウンサンプリング戦略を提案する。 2つのベンチマーク実験により,本手法はパラメータが少なく,計算オーバーヘッドが少なく,最先端の手法よりも優れていることが示された。例えば、P-STMOモデルはCPNからの2Dポーズを入力として使用する場合、Human3.6Mデータセット上で42.1mmMPJPEを達成する。一方、最先端の手法に1.5-7.1倍のスピードアップをもたらす。コードはhttps://github.com/paTRICK-swk/P-STMOで入手できる。

関連論文リスト

HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。 2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-30T06:15:36Z)
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文参考訳（メタデータ） (2025-01-08T18:52:03Z)
MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling [32.81602976390584]
本研究では,2次元関節型VQVAE,時間空間型2次元マスキング技術,時空間型2次元アテンションを提案する2次元運動量子化フレームワークを構築した。提案手法は,HumanML3DではFIDが26.6%,KIT-MLでは29.9%,従来の手法よりも大幅に向上した。
論文参考訳（メタデータ） (2024-09-26T09:51:11Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting [27.3359362364858]
本稿では,頑健な時間的表現を学習する効率的な多視点ポーズ推定モデルを提案する。我々のモデルは微調整なしでデータセットをまたいで一般化することができる。
論文参考訳（メタデータ） (2023-09-14T17:56:30Z)
PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。 PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文参考訳（メタデータ） (2023-03-30T15:45:51Z)
Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2022-10-12T12:00:56Z)
A generic diffusion-based approach for 3D human pose prediction in the wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文参考訳（メタデータ） (2022-10-11T17:59:54Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。 3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2021-09-06T09:06:17Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。