論文の概要: UniHCP: A Unified Model for Human-Centric Perceptions
- arxiv url: http://arxiv.org/abs/2303.02936v4
- Date: Thu, 22 Jun 2023 05:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:33:20.658459
- Title: UniHCP: A Unified Model for Human-Centric Perceptions
- Title(参考訳): UniHCP:人間中心の知覚の統一モデル
- Authors: Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng
Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang
- Abstract要約: 我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 75.38263862084641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian
detection, person re-identification, etc.) play a key role in industrial
applications of visual models. While specific human-centric tasks have their
own relevant semantic aspect to focus on, they also share the same underlying
semantic structure of the human body. However, few works have attempted to
exploit such homogeneity and design a general-propose model for human-centric
tasks. In this work, we revisit a broad range of human-centric tasks and unify
them in a minimalist manner. We propose UniHCP, a Unified Model for
Human-Centric Perceptions, which unifies a wide range of human-centric tasks in
a simplified end-to-end manner with the plain vision transformer architecture.
With large-scale joint training on 33 human-centric datasets, UniHCP can
outperform strong baselines on several in-domain and downstream tasks by direct
evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a
wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing,
86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID,
and 85.8 JI on CrowdHuman for pedestrian detection, performing better than
specialized models tailored for each task.
- Abstract(参考訳): 人間中心の知覚(ポーズ推定、人間の解析、歩行者検出、人物再同定など)は、視覚モデルの産業応用において重要な役割を果たす。
特定の人間中心のタスクは、それぞれに焦点をあてる意味的な側面を持っているが、同時に、人体の基本的な意味構造も共有している。
しかし、そのような均質性を活かし、人間中心タスクの汎用モデルの設計を試みる研究はほとんどない。
本研究では、人間中心の幅広いタスクを再考し、最小限の方法でそれらを統一する。
そこで我々は,人間中心のタスクを多種多様なタスクに統一したUniHCPを,視覚トランスフォーマアーキテクチャを用いて簡易なエンド・ツー・エンド方式で提案する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPはいくつかのドメイン内および下流タスクにおいて、直接評価によって強力なベースラインを達成できる。
特定のタスクに適応すると、UniHCPは、人間解析用のCIHPの69.8 mIoU、属性予測用のPA-100Kの86.18 mA、ReID用のMarket1501の90.3 mAP、歩行者検出用のCrowdHumanの85.8 JIなど、幅広い人間中心のタスクで新しいSOTAを達成し、各タスク用に調整された特別モデルよりも優れたパフォーマンスを発揮する。
関連論文リスト
- Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Expressive Forecasting of 3D Whole-body Human Motions [38.93700642077312]
私たちは初めて、全身の人間のポーズ予測フレームワークを定式化した。
我々のモデルは、クロスコンテキストアライメント(XCA)とクロスコンテキストインタラクション(XCI)の2つの重要な構成要素を含んでいる。
我々は,新たに導入した大規模ベンチマークの広範な実験を行い,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T09:09:46Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Whole-Body Human Pose Estimation in the Wild [88.09875133989155]
COCO-WholeBodyは、全体アノテーションでCOCOデータセットを拡張する。
これは人体全体に手動のアノテーションがある最初のベンチマークである。
ZoomNetという名前のシングルネットワークモデルは、完全な人体の階層構造を考慮するために考案された。
論文 参考訳(メタデータ) (2020-07-23T08:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。