論文の概要: Benchmarking 3D Human Pose Estimation Models under Occlusions
- arxiv url: http://arxiv.org/abs/2504.10350v2
- Date: Mon, 02 Jun 2025 16:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.289489
- Title: Benchmarking 3D Human Pose Estimation Models under Occlusions
- Title(参考訳): 咬合下での3次元人物位置推定モデルのベンチマーク
- Authors: Filipa Lino, Carlos Santiago, Manuel Marques,
- Abstract要約: HPE(Human Pose Estimation)は、視覚データから人体上のキーポイントを検出し、位置を特定する。
本稿では,現実的な閉塞条件下での3次元HPEモデルのロバスト性に関するベンチマークを示す。
我々は、畳み込み、トランスフォーマーベース、グラフベース、拡散に基づく9つの最先端2D-to-3D HPEモデルを評価する。
- 参考スコア(独自算出の注目度): 6.858859328420893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Pose Estimation (HPE) involves detecting and localizing keypoints on the human body from visual data. In 3D HPE, occlusions, where parts of the body are not visible in the image, pose a significant challenge for accurate pose reconstruction. This paper presents a benchmark on the robustness of 3D HPE models under realistic occlusion conditions, involving combinations of occluded keypoints commonly observed in real-world scenarios. We evaluate nine state-of-the-art 2D-to-3D HPE models, spanning convolutional, transformer-based, graph-based, and diffusion-based architectures, using the BlendMimic3D dataset, a synthetic dataset with ground-truth 2D/3D annotations and occlusion labels. All models were originally trained on Human3.6M and tested here without retraining to assess their generalization. We introduce a protocol that simulates occlusion by adding noise into 2D keypoints based on real detector behavior, and conduct both global and per-joint sensitivity analyses. Our findings reveal that all models exhibit notable performance degradation under occlusion, with diffusion-based models underperforming despite their stochastic nature. Additionally, a per-joint occlusion analysis identifies consistent vulnerability in distal joints (e.g., wrists, feet) across models. Overall, this work highlights critical limitations of current 3D HPE models in handling occlusions, and provides insights for improving real-world robustness.
- Abstract(参考訳): HPE(Human Pose Estimation)は、視覚データから人体上のキーポイントを検出し、位置を特定する。
3D HPEでは、身体の一部が画像に見えないオクルージョンは、正確なポーズの復元に重要な課題となる。
本稿では,実世界のシナリオでよく見られる隠蔽キーポイントの組み合わせを含む,現実の閉塞条件下での3次元HPEモデルのロバスト性に関するベンチマークを示す。
我々は、BlendMimic3Dデータセットを用いて、畳み込み、トランスフォーマーベース、グラフベース、拡散ベースアーキテクチャにまたがる9つの最先端2D-to-3D HPEモデルを評価する。
全てのモデルは、当初Human3.6Mで訓練され、それらの一般化を評価するために再訓練することなくここでテストされた。
本稿では,実測値の挙動に基づいて2次元鍵点に雑音を付加することにより閉塞をシミュレートするプロトコルを提案する。
以上の結果より,全モデルが閉塞下での顕著な性能劣化を示し,拡散モデルが確率的特性にもかかわらず性能が低下していることが判明した。
さらに、関節ごとの閉塞分析は、モデル間の遠位関節(例えば手首、足)の一貫性のある脆弱性を識別する。
全体として、この研究は、オクルージョンを扱う際の現在の3D HPEモデルの限界を強調し、現実世界の堅牢性を改善するための洞察を提供する。
関連論文リスト
- DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion [57.83515140886807]
欠陥認識型3Dポーズ推定の課題について紹介する。
DeProPoseは、トレーニングの複雑さを減らすために、ネットワークアーキテクチャをシンプルにするためのフレキシブルなメソッドである。
我々は,新しい3次元ポーズ推定データセットを開発した。
論文 参考訳(メタデータ) (2025-02-23T03:22:54Z) - Targeted Hard Sample Synthesis Based on Estimated Pose and Occlusion Error for Improved Object Pose Estimation [9.637714330461037]
モデルに依存しない新しいハードサンプル合成法を提案する。
本研究では,最先端ポーズ推定モデルを用いて,複数のROBIデータセットオブジェクトに対して最大20%の精度で検出率を向上することを示す。
論文 参考訳(メタデータ) (2024-12-05T16:00:55Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [71.2556016049579]
ManiPoseは、人為的な2D-to-3Dリフトのための多様体拘束型マルチハイブリッドモデルである。
人間のポーズ多様体上の出力を制約することにより、ManiPoseはすべての仮説的なポーズの一貫性を保証する。
実世界のデータセット上でのManiPoseのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D
Pose Data [14.719976311208502]
トレーニングとテストデータドメインのギャップは、しばしばモデルのパフォーマンスに悪影響を及ぼします。
本稿では、外見とポーズ空間の両方における適応問題に対処する適応的ヒューマンポーズ(AHuP)アプローチを提案する。
AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。
論文 参考訳(メタデータ) (2021-05-23T01:20:40Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。