論文の概要: MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.00649v1
- Date: Sun, 31 Aug 2025 00:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.322966
- Title: MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
- Title(参考訳): MV-SSM:3次元人物位置推定のための多視点状態空間モデリング
- Authors: Aviral Chharia, Wenbo Gou, Haoye Dong,
- Abstract要約: マルチビュー3D人間のポーズ推定は依然として困難である。
既存の注意に基づく変換器は、しばしばキーポイントの空間配置を正確にモデル化するのに苦労する。
MV-SSMと呼ばれる新しい多視点状態空間モデリングフレームワークを導入し、3次元人間のキーポイントを頑健に推定する。
- 参考スコア(独自算出の注目度): 12.134180267900456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant progress has been made in single-view 3D human pose estimation, multi-view 3D human pose estimation remains challenging, particularly in terms of generalizing to new camera configurations. Existing attention-based transformers often struggle to accurately model the spatial arrangement of keypoints, especially in occluded scenarios. Additionally, they tend to overfit specific camera arrangements and visual scenes from training data, resulting in substantial performance drops in new settings. In this study, we introduce a novel Multi-View State Space Modeling framework, named MV-SSM, for robustly estimating 3D human keypoints. We explicitly model the joint spatial sequence at two distinct levels: the feature level from multi-view images and the person keypoint level. We propose a Projective State Space (PSS) block to learn a generalized representation of joint spatial arrangements using state space modeling. Moreover, we modify Mamba's traditional scanning into an effective Grid Token-guided Bidirectional Scanning (GTBS), which is integral to the PSS block. Multiple experiments demonstrate that MV-SSM achieves strong generalization, outperforming state-of-the-art methods: +10.8 on AP25 (+24%) on the challenging three-camera setting in CMU Panoptic, +7.0 on AP25 (+13%) on varying camera arrangements, and +15.3 PCP (+38%) on Campus A1 in cross-dataset evaluations. Project Website: https://aviralchharia.github.io/MV-SSM
- Abstract(参考訳): シングルビューの人間のポーズ推定では大きな進歩があったが、特に新しいカメラ構成への一般化という点では、マルチビューの人間のポーズ推定は依然として困難である。
既存の注意に基づくトランスフォーマーは、特に隠蔽されたシナリオにおいて、キーポイントの空間配置を正確にモデル化するのに苦労することが多い。
さらに、トレーニングデータから特定のカメラアレンジメントや視覚的なシーンをオーバーフィットさせる傾向があり、結果として新たな設定のパフォーマンスが大幅に低下する。
本研究では,3次元人間のキーポイントを頑健に推定する,MV-SSMと呼ばれる新しい多視点状態空間モデリングフレームワークを提案する。
我々は,複数視点画像の特徴レベルと人物のキーポイントレベルという2つの異なるレベルで,共同空間シーケンスを明示的にモデル化する。
本研究では、状態空間モデリングを用いて、共同空間配置の一般化表現を学習するためのプロジェクティブ・ステート・スペース(PSS)ブロックを提案する。
さらに,マンバの従来の走査法を,PSSブロックに不可欠なGrid Token-Guided Bidirectional Scanning (GTBS) に修正する。
複数の実験により、MV-SSMは強力な一般化を実現し、CMU Panopticの挑戦的な3カメラ設定におけるAP25の+10.8(+24%)、様々なカメラアレンジにおけるAP25の+7.0(+13%)、Campus A1の+15.3 PCP(+38%)など、最先端の手法よりも優れていた。
プロジェクトウェブサイト: https://aviralchharia.github.io/MV-SSM
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。