論文の概要: X as Supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2411.13026v1
- Date: Wed, 20 Nov 2024 04:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:16.077726
- Title: X as Supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation
- Title(参考訳): X as supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation
- Authors: Yuchen Yang, Xuanyi Liu, Xing Gao, Zhihang Zhong, Xiao Sun,
- Abstract要約: マルチハイポテーシス検出と複数の調整済みプレテキストタスクを特徴とする教師なしフレームワークを提案する。
ローカルウィンドウ内のヒートマップから複数の仮説を抽出し、マルチソリューション問題を効果的に管理する。
プリテキストタスクは、SMPLモデルからの3D人間の事前情報を利用して、ポーズ推定の解空間を規則化し、それを3D人間の構造を経験的分布と整合させる。
- 参考スコア(独自算出の注目度): 12.765995624408557
- License:
- Abstract: Recent unsupervised methods for monocular 3D pose estimation have endeavored to reduce dependence on limited annotated 3D data, but most are solely formulated in 2D space, overlooking the inherent depth ambiguity issue. Due to the information loss in 3D-to-2D projection, multiple potential depths may exist, yet only some of them are plausible in human structure. To tackle depth ambiguity, we propose a novel unsupervised framework featuring a multi-hypothesis detector and multiple tailored pretext tasks. The detector extracts multiple hypotheses from a heatmap within a local window, effectively managing the multi-solution problem. Furthermore, the pretext tasks harness 3D human priors from the SMPL model to regularize the solution space of pose estimation, aligning it with the empirical distribution of 3D human structures. This regularization is partially achieved through a GCN-based discriminator within the discriminative learning, and is further complemented with synthetic images through rendering, ensuring plausible estimations. Consequently, our approach demonstrates state-of-the-art unsupervised 3D pose estimation performance on various human datasets. Further evaluations on data scale-up and one animal dataset highlight its generalization capabilities. Code will be available at https://github.com/Charrrrrlie/X-as-Supervision.
- Abstract(参考訳): 近年, モノクル3次元ポーズ推定法は, 注釈付き3次元データへの依存を軽減するために試みられているが, 多くは2次元空間でのみ定式化されている。
3D-to-2Dプロジェクションにおける情報損失のため、複数の潜在的な深さが存在する可能性があるが、その一部だけが人間の構造に当てはまる。
奥行きの曖昧さに対処するために,マルチハイプセプターと複数の調整済みプレテキストタスクを備えた,新しい教師なしフレームワークを提案する。
ローカルウィンドウ内のヒートマップから複数の仮説を抽出し、マルチソリューション問題を効果的に管理する。
さらに、プリテキストタスクは、SMPLモデルからの3次元人間の先行性を利用して、ポーズ推定の解空間を規則化し、それを3次元人間の構造の経験的分布と整合させる。
この正規化は、差別学習におけるGCNベースの判別器によって部分的に達成され、レンダリングによって合成画像と補完され、妥当な推定が保証される。
提案手法は,様々な人的データセットに対して,最先端の教師なし3次元ポーズ推定性能を示す。
データスケールアップと1匹の動物データセットに関するさらなる評価は、その一般化能力を強調している。
コードはhttps://github.com/Charrrlie/X-as-Supervision.comから入手できる。
関連論文リスト
- DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。