論文の概要: BBoxMaskPose v2: Expanding Mutual Conditioning to 3D
- arxiv url: http://arxiv.org/abs/2601.15200v1
- Date: Wed, 21 Jan 2026 17:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.474799
- Title: BBoxMaskPose v2: Expanding Mutual Conditioning to 3D
- Title(参考訳): BBoxMaskPose v2: 相互条件を3Dに拡張
- Authors: Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas,
- Abstract要約: PMPoseは、確率的定式化とマスク条件を組み込んだトップダウン2Dポーズ推定器である。
PMPoseとSAMベースのマスク改善モジュールを統合したBBoxMaskPose v2(BMPv2)を提案する。
新しいOCHuman-Poseデータセットの結果は、複数人のパフォーマンスが検出よりもポーズ予測精度に影響されていることを示している。
- 参考スコア(独自算出の注目度): 15.318646611581741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most 2D human pose estimation benchmarks are nearly saturated, with the exception of crowded scenes. We introduce PMPose, a top-down 2D pose estimator that incorporates the probabilistic formulation and the mask-conditioning. PMPose improves crowded pose estimation without sacrificing performance on standard scenes. Building on this, we present BBoxMaskPose v2 (BMPv2) integrating PMPose and an enhanced SAM-based mask refinement module. BMPv2 surpasses state-of-the-art by 1.5 average precision (AP) points on COCO and 6 AP points on OCHuman, becoming the first method to exceed 50 AP on OCHuman. We demonstrate that BMP's 2D prompting of 3D model improves 3D pose estimation in crowded scenes and that advances in 2D pose quality directly benefit 3D estimation. Results on the new OCHuman-Pose dataset show that multi-person performance is more affected by pose prediction accuracy than by detection. The code, models, and data are available on https://MiraPurkrabek.github.io/BBox-Mask-Pose/.
- Abstract(参考訳): ほとんどの2次元ポーズ推定ベンチマークは、混み合ったシーンを除いてほぼ飽和している。
確率的定式化とマスク条件を組み込んだトップダウン2次元ポーズ推定器であるPMPoseを紹介する。
PMPoseは、標準的なシーンのパフォーマンスを犠牲にすることなく、混雑したポーズ推定を改善する。
これに基づいて,PMPoseとSAMベースのマスクリファインメントモジュールを統合したBBoxMaskPose v2(BMPv2)を提案する。
BMPv2は、COCO上の1.5平均精度(AP)ポイント、OCHuman上の6APポイントを上回り、OCHuman上で50APを超える最初の方法となった。
BMPの3次元モデルによる2次元プロンプトは,混雑したシーンにおける3次元ポーズ推定を改善するとともに,2次元ポーズ品質の向上が直接3次元ポーズ推定に有効であることを実証した。
新しいOCHuman-Poseデータセットの結果は、複数人のパフォーマンスが検出よりもポーズ予測精度に影響されていることを示している。
コード、モデル、データはhttps://MiraPurkrabek.github.io/BBox-Mask-Pose/で公開されている。
関連論文リスト
- Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle [24.63316659365843]
新しいマスク条件のポーズ推定モデルであるMaskPoseは、OCHumanにおけるトップダウンアプローチの中でも最高のものである。
BBox-Mask-Poseは、OCHumanデータセット上のSOTAを、検出、インスタンスセグメンテーション、ポーズ推定という3つのタスクすべてでプッシュする。
大規模なインスタンスが重複するシーンでは特に良好で、ベースライン検出器よりも39%検出が改善されている。
論文 参考訳(メタデータ) (2024-12-02T14:50:15Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。