論文の概要: RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with
Occlusion Handling
- arxiv url: http://arxiv.org/abs/2311.14242v1
- Date: Fri, 24 Nov 2023 01:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:18:23.268505
- Title: RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with
Occlusion Handling
- Title(参考訳): RSB-Pose:オクルージョンハンドリングによるロバスト短基線両眼3次元人物位置推定
- Authors: Xiaoyue Wan, Zhuo Chen, Yiming Bao, Xu Zhao
- Abstract要約: 我々は、ポータビリティと幾何学的測定特性の両方を提供する短基線双眼設定に照準を合わせました。
両眼の基準線が短くなるにつれて, 第一に, 2次元誤差に対する3次元再構成の堅牢性は低下する。
本稿では,2次元キーポイントの表示一貫性を改善し,3次元ロバスト性を高めるためのステレオコキーポイント推定モジュールを提案する。
- 参考スコア(独自算出の注目度): 21.572854988154607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of 3D Human Pose Estimation, which finds widespread daily
applications, the requirement for convenient acquisition equipment continues to
grow. To satisfy this demand, we set our sights on a short-baseline binocular
setting that offers both portability and a geometric measurement property that
radically mitigates depth ambiguity. However, as the binocular baseline
shortens, two serious challenges emerge: first, the robustness of 3D
reconstruction against 2D errors deteriorates; and second, occlusion reoccurs
due to the limited visual differences between two views. To address the first
challenge, we propose the Stereo Co-Keypoints Estimation module to improve the
view consistency of 2D keypoints and enhance the 3D robustness. In this module,
the disparity is utilized to represent the correspondence of binocular 2D
points and the Stereo Volume Feature is introduced to contain binocular
features across different disparities. Through the regression of SVF, two-view
2D keypoints are simultaneously estimated in a collaborative way which
restricts their view consistency. Furthermore, to deal with occlusions, a
Pre-trained Pose Transformer module is introduced. Through this module, 3D
poses are refined by perceiving pose coherence, a representation of joint
correlations. This perception is injected by the Pose Transformer network and
learned through a pre-training task that recovers iterative masked joints.
Comprehensive experiments carried out on H36M and MHAD datasets, complemented
by visualizations, validate the effectiveness of our approach in the
short-baseline binocular 3D Human Pose Estimation and occlusion handling.
- Abstract(参考訳): 日常的な応用が広く見られる3Dヒューマンポース推定の領域では、便利な取得機器の要求が増加し続けている。
この要求を満たすため、我々は、ポータビリティと、奥行きのあいまいさを根本的に緩和する幾何的測定特性の両方を提供する短基線双眼設定に目を向けた。
しかし, 2次元誤差に対する3次元再構成のロバスト性が低下し, 2次元視差が限定されたため咬合が再発生するという2つの深刻な課題が生じた。
第1の課題に対処するために,2次元キーポイントのビュー一貫性を改善し,3次元ロバスト性を高めるために,ステレオコキーポイント推定モジュールを提案する。
本モジュールでは、両眼2d点の対応を表すために不一致を利用し、異なる異点間の双眼特徴を含むステレオボリューム特徴を導入する。
SVFの回帰により、2次元キーポイントを協調的に推定し、ビューの一貫性を制限する。
さらに、咬合に対処するために、予め訓練されたポーズトランスフォーマーモジュールを導入する。
このモジュールを通して、3dポーズは、結合相関の表現であるポーズコヒーレンスを知覚することによって洗練される。
この知覚はPose Transformerネットワークによって注入され、反復的なマスク関節を回復するトレーニング前タスクを通じて学習される。
H36MとMHADデータセットを用いた総合的な実験を行い、可視化を行い、短基線双眼3D人物姿勢推定と閉塞処理におけるアプローチの有効性を検証した。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - View Consistency Aware Holistic Triangulation for 3D Human Pose
Estimation [19.17724401988387]
ビュー相関を確立することで2次元結果を洗練するためのマルチビューフュージョンモジュールを提案する。
全体像を全体像として推測するために立体三角法が提案され、それ以前の解剖学は、ポーズコヒーレンスを維持するために注入される。
提案手法は,新しい測定基準によって評価される精度と妥当性の両方において,技術状況よりも優れる。
論文 参考訳(メタデータ) (2023-02-22T11:36:40Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。