論文の概要: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- arxiv url: http://arxiv.org/abs/2412.01562v1
- Date: Mon, 02 Dec 2024 14:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:01.580786
- Title: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- Title(参考訳): 複数の体に対する検出, ポス推定, セグメンテーション:硝子体循環を閉鎖する
- Authors: Miroslav Purkrabek, Jiri Matas,
- Abstract要約: 境界ボックスの代わりにセグメンテーションマスクによるポーズ推定モデルを適用し,インスタンス分離を改善する。
BBox-Mask-Pose (BMP)は、検出、セグメンテーション、ポーズ推定を自己改善フィードバックループに統合する。
- 参考スコア(独自算出の注目度): 24.63316659365843
- License:
- Abstract: Human pose estimation methods work well on separated people but struggle with multi-body scenarios. Recent work has addressed this problem by conditioning pose estimation with detected bounding boxes or bottom-up-estimated poses. Unfortunately, all of these approaches overlooked segmentation masks and their connection to estimated keypoints. We condition pose estimation model by segmentation masks instead of bounding boxes to improve instance separation. This improves top-down pose estimation in multi-body scenarios but does not fix detection errors. Consequently, we develop BBox-Mask-Pose (BMP), integrating detection, segmentation and pose estimation into self-improving feedback loop. We adapt detector and pose estimation model for conditioning by instance masks and use Segment Anything as pose-to-mask model to close the circle. With only small models, BMP is superior to top-down methods on OCHuman dataset and to detector-free methods on COCO dataset, combining the best from both approaches and matching state of art performance in both settings. Code is available on https://mirapurkrabek.github.io/BBox-Mask-Pose.
- Abstract(参考訳): 人間のポーズ推定手法は、分離された人々ではうまく機能するが、多体シナリオでは苦労する。
最近の研究は、検出されたバウンディングボックスやボトムアップ推定されたポーズを用いてポーズ推定を条件付けることでこの問題に対処している。
残念なことに、これらのアプローチはすべて、セグメンテーションマスクとその推定キーポイントへの接続を見落としていた。
境界ボックスの代わりにセグメンテーションマスクによるポーズ推定モデルを適用し,インスタンス分離を改善する。
これにより、マルチボディシナリオにおけるトップダウンポーズ推定が改善されるが、検出エラーは修正されない。
そこで我々は,BBox-Mask-Pose (BMP) を開発し,検出,セグメンテーション,ポーズ推定を自己改善フィードバックループに統合する。
ケースマスクによる条件付けのための検出器とポーズ推定モデルに適応し、Segment Anything を擬似マスクモデルとして使用して円を閉じる。
小さなモデルだけで、BMPはOCHumanデータセット上のトップダウンメソッドやCOCOデータセット上のディテクターフリーメソッドよりも優れている。
コードはhttps://mirapurkrabek.github.io/BBox-Mask-Poseで公開されている。
関連論文リスト
- Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Rethinking pose estimation in crowds: overcoming the detection
information-bottleneck and ambiguity [46.10812760258666]
個人間の頻繁な相互作用は、ポーズ推定アルゴリズムの基本的な課題である。
ボトムアップ条件付きトップダウンポーズ推定と呼ばれる新しいパイプラインを提案する。
動物と人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。
論文 参考訳(メタデータ) (2023-06-13T16:14:40Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Human Pose as Compositional Tokens [88.28348144244131]
本稿では,PoseをPCT(Compincial Tokens)と名づけた構造的表現について述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
論文 参考訳(メタデータ) (2023-03-21T07:14:18Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking
in Real-Time [47.19339667836196]
提案するAlphaPoseは,リアルタイムに動作しながら,身体全体のポーズを正確に推定・追跡できるシステムである。
我々は,COCO-全体,COCO,PoseTrack,提案したHalpe-FullBodyポーズ推定データセットにおいて,現在の最先端手法よりも高速かつ高精度であることを示す。
論文 参考訳(メタデータ) (2022-11-07T09:15:38Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。