論文の概要: Self-learning Canonical Space for Multi-view 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2403.12440v2
- Date: Fri, 29 Mar 2024 14:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:53:05.076890
- Title: Self-learning Canonical Space for Multi-view 3D Human Pose Estimation
- Title(参考訳): マルチビュー3次元人物位置推定のための自己学習カノニカル空間
- Authors: Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen,
- Abstract要約: マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 57.969696744428475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view 3D human pose estimation is naturally superior to single view one, benefiting from more comprehensive information provided by images of multiple views. The information includes camera poses, 2D/3D human poses, and 3D geometry. However, the accurate annotation of these information is hard to obtain, making it challenging to predict accurate 3D human pose from multi-view images. To deal with this issue, we propose a fully self-supervised framework, named cascaded multi-view aggregating network (CMANet), to construct a canonical parameter space to holistically integrate and exploit multi-view information. In our framework, the multi-view information is grouped into two categories: 1) intra-view information , 2) inter-view information. Accordingly, CMANet consists of two components: intra-view module (IRV) and inter-view module (IEV). IRV is used for extracting initial camera pose and 3D human pose of each view; IEV is to fuse complementary pose information and cross-view 3D geometry for a final 3D human pose. To facilitate the aggregation of the intra- and inter-view, we define a canonical parameter space, depicted by per-view camera pose and human pose and shape parameters ($\theta$ and $\beta$) of SMPL model, and propose a two-stage learning procedure. At first stage, IRV learns to estimate camera pose and view-dependent 3D human pose supervised by confident output of an off-the-shelf 2D keypoint detector. At second stage, IRV is frozen and IEV further refines the camera pose and optimizes the 3D human pose by implicitly encoding the cross-view complement and 3D geometry constraint, achieved by jointly fitting predicted multi-view 2D keypoints. The proposed framework, modules, and learning strategy are demonstrated to be effective by comprehensive experiments and CMANet is superior to state-of-the-art methods in extensive quantitative and qualitative analysis.
- Abstract(参考訳): マルチビュー3次元人間のポーズ推定は、自然に単一のビューよりも優れており、複数のビューの画像によって提供されるより包括的な情報から恩恵を受けている。
情報には、カメラのポーズ、2D/3Dの人間のポーズ、3Dの幾何学が含まれる。
しかし、これらの情報の正確なアノテーションを得ることは困難であり、多視点画像から正確な3次元ポーズを予測することは困難である。
この問題に対処するため、我々はCMANet(Cascaded Multi-view aggregating Network)と呼ばれる完全に自己管理されたフレームワークを提案し、多視点情報の統合と活用を目的とした標準パラメータ空間を構築した。
本フレームワークでは,マルチビュー情報を2つのカテゴリに分類する。
1)ビュー内情報、2)ビュー間情報。
そのため、CMANetは、IRV(Intra-view Module)とIEV(Inter-view Module)の2つのコンポーネントで構成されている。
IRVは、各ビューの初期のカメラポーズと3D人間のポーズを抽出するために使用され、IEVは、最後の3D人間のポーズのために補完的なポーズ情報と3Dの幾何学を融合することを目的としている。
ビュー内およびビュー間のアグリゲーションを容易にするため、SMPLモデルのカメラポーズと人間のポーズと形状パラメータ($\theta$と$\beta$)で表現された標準パラメータ空間を定義し、2段階の学習手順を提案する。
第一段階では、IRVは、市販の2Dキーポイント検出器の確実な出力によって監督されるカメラのポーズとビュー依存の人間のポーズを推定することを学ぶ。
第2段階では、IRVは凍結され、IEVはカメラポーズをさらに洗練し、予測されたマルチビュー2Dキーポイントを併用することで達成される、クロスビュー補完と3D幾何制約を暗黙的に符号化することで、3D人間のポーズを最適化する。
提案したフレームワーク,モジュール,学習戦略は総合的な実験によって有効であることが実証され,CMANetは大規模かつ質的な分析において最先端の手法よりも優れている。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Multi-person 3D pose estimation from unlabelled data [2.54990557236581]
シナリオ内の人々の横断的な対応を予測できるグラフニューラルネットワークに基づくモデルを提案する。
また、各人物の3Dポーズを生成するために2Dポイントを利用する多層パーセプトロンも提示する。
論文 参考訳(メタデータ) (2022-12-16T22:03:37Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。