論文の概要: Dual-stream Spatio-Temporal GCN-Transformer Network for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2604.17688v1
- Date: Mon, 20 Apr 2026 01:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.637667
- Title: Dual-stream Spatio-Temporal GCN-Transformer Network for 3D Human Pose Estimation
- Title(参考訳): 二重ストリーム時空間GCN変換器ネットワークによる3次元人物位置推定
- Authors: Jiawen Duan, Jian Xiang, Zhiqiang Li, Linlin Xue, Wan Xiang,
- Abstract要約: 我々は新しい手法であるDual-stream Spatio-temporal GCN-Transformer Network(MixTGFormer)を提案している。
この手法は、2つの平行チャネルを通して人間の骨格の空間的および時間的関係を同時にモデル化する。
実験の結果,MixTGFormerは他の手法と比較して,P1エラーは37.6mm,P1エラーは15.7mmであった。
- 参考スコア(独自算出の注目度): 5.537583859633069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation is a classic and important research direction in the field of computer vision. In recent years, Transformer-based methods have made significant progress in lifting 2D to 3D human pose estimation. However, these methods primarily focus on modeling global temporal and spatial relationships, neglecting local skeletal relationships and the information interaction between different channels. Therefore, we have proposed a novel method,the Dual-stream Spatio-temporal GCN-Transformer Network (MixTGFormer). This method models the spatial and temporal relationships of human skeletons simultaneously through two parallel channels, achieving effective fusion of global and local features. The core of MixTGFormer is composed of stacked Mixformers. Specifically, the Mixformer includes the Mixformer Block and the Squeeze-and-Excitation Layer ( SE Layer). It first extracts and fuses various information of human skeletons through two parallel Mixformer Blocks with different modes. Then, it further supplements the fused information through the SE Layer. The Mixformer Block integrates Graph Convolutional Networks (GCN) into the Transformer, enhancing both local and global information utilization. Additionally, we further implement its temporal and spatial forms to extract both spatial and temporal relationships. We extensively evaluated our model on two benchmark datasets (Human3.6M and MPI-INF-3DHP). The experimental results showed that, compared to other methods, our MixTGFormer achieved state-of-the-art results, with P1 errors of 37.6mm and 15.7mm on these datasets, respectively.
- Abstract(参考訳): 3次元人間のポーズ推定はコンピュータビジョンの分野における古典的で重要な研究方向である。
近年,トランスフォーマーを用いた手法は2次元から3次元へのポーズ推定において大きな進歩を遂げている。
しかし,これらの手法は主にグローバルな時間的・空間的関係をモデル化し,局所的な骨格的関係や異なるチャネル間の情報相互作用を無視することに焦点を当てている。
そこで本稿では,MixTGFormer(Dual-stream Spatio-temporal GCN-Transformer Network)を提案する。
本手法は, 人間の骨格の空間的, 時間的関係を2つの平行チャネルを通して同時にモデル化し, グローバルな特徴と局所的な特徴を効果的に融合させる。
MixTGFormerのコアはスタック化されたMixformerで構成されている。
具体的には、MixformerブロックとSqueeze-and-Excitation Layer(SE Layer)を含む。
まず、異なるモードの2つのMixformer Blockを通して、人間の骨格の様々な情報を抽出し、融合する。
そして、SEレイヤを介して融合した情報を補う。
Mixformer Blockは、Graph Convolutional Networks(GCN)をTransformerに統合し、ローカル情報とグローバル情報の両方を活用する。
さらに、時間的・空間的な関係を抽出するために、時間的・空間的な形式をさらに実装する。
我々は2つのベンチマークデータセット(Human3.6MとMPI-INF-3DHP)でモデルを広範囲に評価した。
実験の結果,MixTGFormerは他の手法と比較して,P1エラーは37.6mm,P1エラーは15.7mmであった。
関連論文リスト
- Controllable Human-centric Keyframe Interpolation with Generative Prior [55.16558476905587]
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation [5.578771488072936]
一人称3次元人物のポーズ推定には,深度あいまいさ,限られた3次元ラベル付きトレーニングデータ,不均衡モデリング,限定モデル一般化が課題である。
本稿では,文脈適応型表現学習に基づくグラウンドブレーキング動作事前学習手法を提案する。
本モデルでは,Human3.6MのMPJPEが38.0mm,P-MPJPEが31.9mm,MPPI-INF-3DHPのMPJPEが15.9mmであった。
論文 参考訳(メタデータ) (2025-04-02T14:17:57Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。