論文の概要: PoseMoE: Mixture-of-Experts Network for Monocular 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2512.16494v1
- Date: Thu, 18 Dec 2025 13:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.065171
- Title: PoseMoE: Mixture-of-Experts Network for Monocular 3D Human Pose Estimation
- Title(参考訳): PoseMoE: 単眼の3次元人物位置推定のためのMixture-of-Experts Network
- Authors: Mengyuan Liu, Jiajie Liu, Jinyan Zhang, Wenhao Li, Junsong Yuan,
- Abstract要約: 本手法は,検出された2次元ポーズを中間表現として活用することにより,モノラルな3次元ポーズ推定を支配した。
最後の3D人間のポーズの2D成分は検出された2Dポーズの恩恵を受けるが、その深さはスクラッチから推定する必要がある。
本研究は, 推定過程において深度表現が重要なことを明らかにする。
- 参考スコア(独自算出の注目度): 48.63445528256583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lifting-based methods have dominated monocular 3D human pose estimation by leveraging detected 2D poses as intermediate representations. The 2D component of the final 3D human pose benefits from the detected 2D poses, whereas its depth counterpart must be estimated from scratch. The lifting-based methods encode the detected 2D pose and unknown depth in an entangled feature space, explicitly introducing depth uncertainty to the detected 2D pose, thereby limiting overall estimation accuracy. This work reveals that the depth representation is pivotal for the estimation process. Specifically, when depth is in an initial, completely unknown state, jointly encoding depth features with 2D pose features is detrimental to the estimation process. In contrast, when depth is initially refined to a more dependable state via network-based estimation, encoding it together with 2D pose information is beneficial. To address this limitation, we present a Mixture-of-Experts network for monocular 3D pose estimation named PoseMoE. Our approach introduces: (1) A mixture-of-experts network where specialized expert modules refine the well-detected 2D pose features and learn the depth features. This mixture-of-experts design disentangles the feature encoding process for 2D pose and depth, therefore reducing the explicit influence of uncertain depth features on 2D pose features. (2) A cross-expert knowledge aggregation module is proposed to aggregate cross-expert spatio-temporal contextual information. This step enhances features through bidirectional mapping between 2D pose and depth. Extensive experiments show that our proposed PoseMoE outperforms the conventional lifting-based methods on three widely used datasets: Human3.6M, MPI-INF-3DHP, and 3DPW.
- Abstract(参考訳): 本手法は,検出された2次元ポーズを中間表現として活用することにより,モノラルな3次元ポーズ推定を支配した。
最後の3D人間のポーズの2D成分は検出された2Dポーズの恩恵を受けるが、その深さはスクラッチから推定する必要がある。
検出された2Dポーズと未知の深さを絡み合った特徴空間にエンコードし、検出された2Dポーズに奥行き不確かさを明示的に導入することにより、全体の推定精度を抑える。
本研究は, 推定過程において深度表現が重要なことを明らかにする。
具体的には、深さが初期、完全に未知の状態である場合、2次元ポーズ特徴を伴う深度特徴を共同符号化することは、推定過程に有害である。
対照的に、ディープがネットワークベースの推定によってより信頼性の高い状態に洗練されると、2Dポーズ情報と共に符号化することが有用である。
この制限に対処するため,PoseMoEという単眼3次元ポーズ推定のためのMixture-of-Expertsネットワークを提案する。
提案手法では,(1)専門的モジュールがよく検出された2次元ポーズ機能を洗練し,深度特徴を学習する,エキスパートの混在ネットワークを提案する。
この試行錯誤設計は、2次元ポーズと深さの特徴符号化過程を乱し、2次元ポーズの特徴に対する不確実な深さ特徴の明示的な影響を低減させる。
2) 横断的時空間情報収集のためのクロスエキスパート知識集約モジュールを提案する。
このステップは、2次元ポーズと深さの間の双方向マッピングを通じて特徴を高める。
大規模な実験により,提案したPoseMoEは,Human3.6M,MPI-INF-3DHP,3DPWの3つの広く使用されているデータセットにおいて,従来のリフトベース手法よりも優れていた。
関連論文リスト
- FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Weakly-supervised Cross-view 3D Human Pose Estimation [16.045255544594625]
弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
論文 参考訳(メタデータ) (2021-05-23T08:16:25Z) - On the role of depth predictions for 3D human pose estimation [0.04199844472131921]
推定深度値とともに2dジョイント位置を入力とし、3d位置をカメラ座標で予測するシステムを構築します。
結果は低次元の入力を受け入れ、リアルタイムシステムに統合されるニューラルネットワークで生成されます。
本システムは市販の2dポーズ検出器と深度マップ予測器と組み合わせて野生での3dポーズ推定を行うことができる。
論文 参考訳(メタデータ) (2021-03-03T16:51:38Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。