論文の概要: VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions
- arxiv url: http://arxiv.org/abs/2508.06757v1
- Date: Sat, 09 Aug 2025 00:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.535229
- Title: VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions
- Title(参考訳): VOccl3D:実咬合下での3次元人間の姿勢と形状推定のためのビデオベンチマークデータセット
- Authors: Yash Garg, Saketh Bachu, Arindam Dutta, Rohit Lal, Sarosij Bose, Calvin-Khang Ta, M. Salman Asif, Amit Roy-Chowdhury,
- Abstract要約: VOccl3Dは3Dボディポーズと形状アノテーションを備えたビデオベースのヒューマンオクルージョンデータセットである。
AGORAやBEDLAMといった作品に触発されて,先進的なコンピュータグラフィックスレンダリング技術を用いてこのデータセットを構築した。
- 参考スコア(独自算出の注目度): 12.739233840342958
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human pose and shape (HPS) estimation methods have been extensively studied, with many demonstrating high zero-shot performance on in-the-wild images and videos. However, these methods often struggle in challenging scenarios involving complex human poses or significant occlusions. Although some studies address 3D human pose estimation under occlusion, they typically evaluate performance on datasets that lack realistic or substantial occlusions, e.g., most existing datasets introduce occlusions with random patches over the human or clipart-style overlays, which may not reflect real-world challenges. To bridge this gap in realistic occlusion datasets, we introduce a novel benchmark dataset, VOccl3D, a Video-based human Occlusion dataset with 3D body pose and shape annotations. Inspired by works such as AGORA and BEDLAM, we constructed this dataset using advanced computer graphics rendering techniques, incorporating diverse real-world occlusion scenarios, clothing textures, and human motions. Additionally, we fine-tuned recent HPS methods, CLIFF and BEDLAM-CLIFF, on our dataset, demonstrating significant qualitative and quantitative improvements across multiple public datasets, as well as on the test split of our dataset, while comparing its performance with other state-of-the-art methods. Furthermore, we leveraged our dataset to enhance human detection performance under occlusion by fine-tuning an existing object detector, YOLO11, thus leading to a robust end-to-end HPS estimation system under occlusions. Overall, this dataset serves as a valuable resource for future research aimed at benchmarking methods designed to handle occlusions, offering a more realistic alternative to existing occlusion datasets. See the Project page for code and dataset:https://yashgarg98.github.io/VOccl3D-dataset/
- Abstract(参考訳): HPS(Human pose and shape)推定法は広範に研究されている。
しかしながら、これらの手法は複雑な人間のポーズや重要な閉塞を含む挑戦的なシナリオに苦しむことが多い。
例えば、既存のほとんどのデータセットは、人間やクリップアートスタイルのオーバーレイにランダムなパッチでオクルージョンを導入しており、これは現実世界の課題を反映していないかもしれない。
このギャップを現実的なオクルージョンデータセットで埋めるために,ビデオベースの人造オクルージョンデータセットであるVOccl3Dを導入した。
AGORAやBEDLAMといった作品にインスパイアされた我々は、このデータセットを高度なコンピュータグラフィックスレンダリング技術を用いて構築し、多様な現実世界の隠蔽シナリオ、衣服のテクスチャ、人間の動きを取り入れた。
さらに、最近のHPSメソッドであるCLIFFとBEDLAM-CLIFFをデータセット上で微調整し、複数の公開データセット、およびデータセットのテスト分割において、そのパフォーマンスを他の最先端メソッドと比較しながら、有意な質的かつ定量的な改善を示した。
さらに,既存の物体検出装置 YOLO11 を微調整することにより,閉塞下での人体検出性能を向上させるために,我々のデータセットを活用し,閉塞下での堅牢なエンドツーエンドHPS推定システムを実現した。
全体として、このデータセットは、オクルージョンを処理するために設計されたメソッドのベンチマークを目的とした将来の研究のための貴重なリソースとなり、既存のオクルージョンデータセットのより現実的な代替手段を提供する。
コードとデータセットについては、プロジェクトページを参照してください。
関連論文リスト
- Benchmarking 3D Human Pose Estimation Models under Occlusions [6.858859328420893]
HPE(Human Pose Estimation)は、視覚データから人体上のキーポイントを検出し、位置を特定する。
本稿では,現実的な閉塞条件下での3次元HPEモデルのロバスト性に関するベンチマークを示す。
我々は、畳み込み、トランスフォーマーベース、グラフベース、拡散に基づく9つの最先端2D-to-3D HPEモデルを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:00:25Z) - DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion [57.83515140886807]
欠陥認識型3Dポーズ推定の課題について紹介する。
DeProPoseは、トレーニングの複雑さを減らすために、ネットワークアーキテクチャをシンプルにするためのフレキシブルなメソッドである。
我々は,新しい3次元ポーズ推定データセットを開発した。
論文 参考訳(メタデータ) (2025-02-23T03:22:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Generalizing Single-View 3D Shape Retrieval to Occlusions and Unseen
Objects [32.32128461720876]
シングルビュー3D形状検索は、利用可能な3Dデータの増大に伴ってますます重要になる課題である。
我々は,3つの異なる軸に沿って一視点の3次元形状検索を体系的に評価し,物体の閉塞や切り離しの存在,見えない3次元形状データへの一般化,入力画像における見えない物体への一般化について検討した。
論文 参考訳(メタデータ) (2023-12-31T05:39:38Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - LASOR: Learning Accurate 3D Human Pose and Shape Via Synthetic
Occlusion-Aware Data and Neural Mesh Rendering [3.007707487678111]
シルエットと2Dキーポイントデータを合成し,SMPLのポーズと形状パラメータに直接回帰するフレームワークを提案する。
ニューラル3Dメッシュを利用して、シルエットの監督をオンザフライで行えるようにすることで、形状推定の大幅な改善に寄与する。
我々は3DPWデータセットのポーズ精度では最先端であり、形状精度ではランク1法より明らかに優れている。
論文 参考訳(メタデータ) (2021-08-01T02:09:16Z) - Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D
Pose Data [14.719976311208502]
トレーニングとテストデータドメインのギャップは、しばしばモデルのパフォーマンスに悪影響を及ぼします。
本稿では、外見とポーズ空間の両方における適応問題に対処する適応的ヒューマンポーズ(AHuP)アプローチを提案する。
AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。
論文 参考訳(メタデータ) (2021-05-23T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。