論文の概要: Referring Human Pose and Mask Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2410.20508v1
- Date: Sun, 27 Oct 2024 16:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:23.114204
- Title: Referring Human Pose and Mask Estimation in the Wild
- Title(参考訳): 野生における人間行動とマスク推定
- Authors: Bo Miao, Mingtao Feng, Zijie Wu, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian,
- Abstract要約: 野生における人間行動とマスク推定(R-HPM)について紹介する。
このタスクは、補助ロボティクスやスポーツ分析のような人間中心のアプリケーションにとって大きな可能性を秘めている。
我々は、R-HPMのためのUniPHDと呼ばれる最初のエンドツーエンドのプロンプト可能なアプローチを提案する。
- 参考スコア(独自算出の注目度): 57.12038065541915
- License:
- Abstract: We introduce Referring Human Pose and Mask Estimation (R-HPM) in the wild, where either a text or positional prompt specifies the person of interest in an image. This new task holds significant potential for human-centric applications such as assistive robotics and sports analysis. In contrast to previous works, R-HPM (i) ensures high-quality, identity-aware results corresponding to the referred person, and (ii) simultaneously predicts human pose and mask for a comprehensive representation. To achieve this, we introduce a large-scale dataset named RefHuman, which substantially extends the MS COCO dataset with additional text and positional prompt annotations. RefHuman includes over 50,000 annotated instances in the wild, each equipped with keypoint, mask, and prompt annotations. To enable prompt-conditioned estimation, we propose the first end-to-end promptable approach named UniPHD for R-HPM. UniPHD extracts multimodal representations and employs a proposed pose-centric hierarchical decoder to process (text or positional) instance queries and keypoint queries, producing results specific to the referred person. Extensive experiments demonstrate that UniPHD produces quality results based on user-friendly prompts and achieves top-tier performance on RefHuman val and MS COCO val2017. Data and Code: https://github.com/bo-miao/RefHuman
- Abstract(参考訳): 本稿では、テキストまたは位置プロンプトのどちらかが画像に興味のある人物を特定する野生の人間行動とマスク推定(R-HPM)を紹介する。
この新たなタスクは、補助ロボティクスやスポーツ分析といった人間中心のアプリケーションにとって大きな可能性を秘めている。
以前の作品とは対照的に、R-HPM
一 被紹介者に対応する質の高い自己認識結果を確保すること。
(二)人間のポーズとマスクを同時に予測し、包括的に表現すること。
そこで我々はRefHumanという大規模データセットを導入し,MS COCOデータセットをテキストと位置指示アノテーションを追加して実質的に拡張した。
RefHumanには5万以上のアノテーション付きインスタンスが含まれており、それぞれにキーポイント、マスク、プロンプトアノテーションを備えている。
プロンプト条件付き推定を実現するために,R-HPMのためのUniPHDと呼ばれる最初のエンドツーエンドのプロンプト可能なアプローチを提案する。
UniPHDはマルチモーダル表現を抽出し、提案されたポーズ中心の階層的デコーダを用いて(テキストまたは位置)インスタンスクエリとキーポイントクエリを処理し、参照した人物に特有の結果を生成する。
大規模な実験により、UniPHDはユーザフレンドリーなプロンプトに基づいて品質結果を生成し、RefHuman valとMS COCO val2017でトップレベルのパフォーマンスを達成することが示されている。
データとコード:https://github.com/bo-miao/RefHuman
関連論文リスト
- Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。