論文の概要: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- arxiv url: http://arxiv.org/abs/2412.01562v1
- Date: Mon, 02 Dec 2024 14:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.612721
- Title: Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
- Title(参考訳): 複数の体に対する検出, ポス推定, セグメンテーション:硝子体循環を閉鎖する
- Authors: Miroslav Purkrabek, Jiri Matas,
- Abstract要約: 境界ボックスの代わりにセグメンテーションマスクによるポーズ推定モデルを適用し,インスタンス分離を改善する。
BBox-Mask-Pose (BMP)は、検出、セグメンテーション、ポーズ推定を自己改善フィードバックループに統合する。
- 参考スコア(独自算出の注目度): 24.63316659365843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human pose estimation methods work well on separated people but struggle with multi-body scenarios. Recent work has addressed this problem by conditioning pose estimation with detected bounding boxes or bottom-up-estimated poses. Unfortunately, all of these approaches overlooked segmentation masks and their connection to estimated keypoints. We condition pose estimation model by segmentation masks instead of bounding boxes to improve instance separation. This improves top-down pose estimation in multi-body scenarios but does not fix detection errors. Consequently, we develop BBox-Mask-Pose (BMP), integrating detection, segmentation and pose estimation into self-improving feedback loop. We adapt detector and pose estimation model for conditioning by instance masks and use Segment Anything as pose-to-mask model to close the circle. With only small models, BMP is superior to top-down methods on OCHuman dataset and to detector-free methods on COCO dataset, combining the best from both approaches and matching state of art performance in both settings. Code is available on https://mirapurkrabek.github.io/BBox-Mask-Pose.
- Abstract(参考訳): 人間のポーズ推定手法は、分離された人々ではうまく機能するが、多体シナリオでは苦労する。
最近の研究は、検出されたバウンディングボックスやボトムアップ推定されたポーズを用いてポーズ推定を条件付けることでこの問題に対処している。
残念なことに、これらのアプローチはすべて、セグメンテーションマスクとその推定キーポイントへの接続を見落としていた。
境界ボックスの代わりにセグメンテーションマスクによるポーズ推定モデルを適用し,インスタンス分離を改善する。
これにより、マルチボディシナリオにおけるトップダウンポーズ推定が改善されるが、検出エラーは修正されない。
そこで我々は,BBox-Mask-Pose (BMP) を開発し,検出,セグメンテーション,ポーズ推定を自己改善フィードバックループに統合する。
ケースマスクによる条件付けのための検出器とポーズ推定モデルに適応し、Segment Anything を擬似マスクモデルとして使用して円を閉じる。
小さなモデルだけで、BMPはOCHumanデータセット上のトップダウンメソッドやCOCOデータセット上のディテクターフリーメソッドよりも優れている。
コードはhttps://mirapurkrabek.github.io/BBox-Mask-Poseで公開されている。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Rethinking pose estimation in crowds: overcoming the detection
information-bottleneck and ambiguity [46.10812760258666]
個人間の頻繁な相互作用は、ポーズ推定アルゴリズムの基本的な課題である。
ボトムアップ条件付きトップダウンポーズ推定と呼ばれる新しいパイプラインを提案する。
動物と人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。
論文 参考訳(メタデータ) (2023-06-13T16:14:40Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - CamoFormer: Masked Separable Attention for Camouflaged Object Detection [94.2870722866853]
カモフラージュされた物体検出のための単純なマスク付き分離型注意(MSA)を提案する。
まず,マルチヘッド・セルフアテンションを3つの部分に分割し,異なるマスキング戦略を用いて,背景からカモフラージュした物体を識別する役割を担っている。
提案手法では,MSAを用いた単純なトップダウンデコーダを用いて,高精度なセグメンテーション結果を得るために,高分解能なセグメンテーション表現を段階的にキャプチャする。
論文 参考訳(メタデータ) (2022-12-10T10:03:27Z) - AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking
in Real-Time [47.19339667836196]
提案するAlphaPoseは,リアルタイムに動作しながら,身体全体のポーズを正確に推定・追跡できるシステムである。
我々は,COCO-全体,COCO,PoseTrack,提案したHalpe-FullBodyポーズ推定データセットにおいて,現在の最先端手法よりも高速かつ高精度であることを示す。
論文 参考訳(メタデータ) (2022-11-07T09:15:38Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - Body Meshes as Points [84.61457490195743]
既存の方法は、主に2段階に基づく1段階の人物のローカライズと、他の段階の個々のボディメッシュ推定である。
BMP(Body Meshes as Points)というシングルステージモデルを提案し、パイプラインを簡素化し、効率性とパフォーマンスを向上する。
論文 参考訳(メタデータ) (2021-05-06T06:58:38Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。