論文の概要: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- arxiv url: http://arxiv.org/abs/2412.01562v2
- Date: Wed, 12 Mar 2025 14:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:50.603132
- Title: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- Title(参考訳): 複数の体に対する検出, ポス推定, セグメンテーション:硝子体循環を閉鎖する
- Authors: Miroslav Purkrabek, Jiri Matas,
- Abstract要約: 新しいマスク条件のポーズ推定モデルであるMaskPoseは、OCHumanにおけるトップダウンアプローチの中でも最高のものである。
BBox-Mask-Poseは、OCHumanデータセット上のSOTAを、検出、インスタンスセグメンテーション、ポーズ推定という3つのタスクすべてでプッシュする。
大規模なインスタンスが重複するシーンでは特に良好で、ベースライン検出器よりも39%検出が改善されている。
- 参考スコア(独自算出の注目度): 24.63316659365843
- License:
- Abstract: Human pose estimation methods work well on isolated people but struggle with multiple-bodies-in-proximity scenarios. Previous work has addressed this problem by conditioning pose estimation by detected bounding boxes or keypoints, but overlooked instance masks. We propose to iteratively enforce mutual consistency of bounding boxes, instance masks, and poses. The introduced BBox-Mask-Pose (BMP) method uses three specialized models that improve each other's output in a closed loop. All models are adapted for mutual conditioning, which improves robustness in multi-body scenes. MaskPose, a new mask-conditioned pose estimation model, is the best among top-down approaches on OCHuman. BBox-Mask-Pose pushes SOTA on OCHuman dataset in all three tasks - detection, instance segmentation, and pose estimation. It also achieves SOTA performance on COCO pose estimation. The method is especially good in scenes with large instances overlap, where it improves detection by 39% over the baseline detector. With small specialized models and faster runtime, BMP is an effective alternative to large human-centered foundational models. Code and models are available on https://MiraPurkrabek.github.io/BBox-Mask-Pose.
- Abstract(参考訳): 人間のポーズ推定手法は、孤立した人々に対してうまく機能するが、複数の身体の近親相性シナリオに苦慮する。
これまでの研究は、検出されたバウンディングボックスやキーポイントによるポーズ推定を条件付けることでこの問題に対処してきた。
本稿では,バウンディングボックス,インスタンスマスク,ポーズの相互整合性を反復的に実施することを提案する。
導入されたBBox-Mask-Pose (BMP) 法では、クローズドループにおいて互いに出力を改善する3つの特別なモデルを使用する。
全てのモデルは相互条件付けに適応しており、多体シーンの堅牢性を向上させる。
新しいマスク条件のポーズ推定モデルであるMaskPoseは、OCHumanにおけるトップダウンアプローチの中で最高のものである。
BBox-Mask-Poseは、OCHumanデータセット上のSOTAを、検出、インスタンスセグメンテーション、ポーズ推定という3つのタスクすべてでプッシュする。
COCOポーズ推定におけるSOTA性能も達成する。
この方法は、大きなインスタンスが重なり合うシーンでは特に優れており、ベースライン検出器よりも39%も検出が改善されている。
小型の専門モデルとより高速なランタイムにより、BMPは大規模な人間中心の基礎モデルに代わる効果的な代替となる。
コードとモデルはhttps://MiraPurkrabek.github.io/BBox-Mask-Poseで公開されている。
関連論文リスト
- Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Rethinking pose estimation in crowds: overcoming the detection
information-bottleneck and ambiguity [46.10812760258666]
個人間の頻繁な相互作用は、ポーズ推定アルゴリズムの基本的な課題である。
ボトムアップ条件付きトップダウンポーズ推定と呼ばれる新しいパイプラインを提案する。
動物と人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。
論文 参考訳(メタデータ) (2023-06-13T16:14:40Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Human Pose as Compositional Tokens [88.28348144244131]
本稿では,PoseをPCT(Compincial Tokens)と名づけた構造的表現について述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
論文 参考訳(メタデータ) (2023-03-21T07:14:18Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking
in Real-Time [47.19339667836196]
提案するAlphaPoseは,リアルタイムに動作しながら,身体全体のポーズを正確に推定・追跡できるシステムである。
我々は,COCO-全体,COCO,PoseTrack,提案したHalpe-FullBodyポーズ推定データセットにおいて,現在の最先端手法よりも高速かつ高精度であることを示す。
論文 参考訳(メタデータ) (2022-11-07T09:15:38Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。