論文の概要: HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining
- arxiv url: http://arxiv.org/abs/2303.05675v1
- Date: Fri, 10 Mar 2023 02:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:15:28.854507
- Title: HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining
- Title(参考訳): HumanBench:プロジェクターを用いた一般人中心の知覚に向けて
- Authors: Shixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang,
Yuanzheng Ci, Lei Bai, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang
- Abstract要約: 汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
- 参考スコア(独自算出の注目度): 75.1086193340286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric perceptions include a variety of vision tasks, which have
widespread industrial applications, including surveillance, autonomous driving,
and the metaverse. It is desirable to have a general pretrain model for
versatile human-centric downstream tasks. This paper forges ahead along this
path from the aspects of both benchmark and pretraining methods. Specifically,
we propose a \textbf{HumanBench} based on existing datasets to comprehensively
evaluate on the common ground the generalization abilities of different
pretraining methods on 19 datasets from 6 diverse downstream tasks, including
person ReID, pose estimation, human parsing, pedestrian attribute recognition,
pedestrian detection, and crowd counting. To learn both coarse-grained and
fine-grained knowledge in human bodies, we further propose a \textbf{P}rojector
\textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method
(\textbf{PATH}) to learn diverse knowledge at different granularity levels.
Comprehensive evaluations on HumanBench show that our PATH achieves new
state-of-the-art results on 17 downstream datasets and on-par results on the
other 2 datasets. The code will be publicly at
\href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.
- Abstract(参考訳): 人間中心の認識には様々な視覚タスクが含まれており、監視、自律運転、メタバースなど幅広い産業用途がある。
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本稿では,ベンチマーク法と事前学習法の両面から,この経路を推し進める。
具体的には,既設のデータセットに基づく \textbf{humanbench} を提案し,パーソナライズ,ポーズ推定,ヒューマン解析,歩行者属性認識,歩行者検出,群衆数計数など6つのダウンストリームタスクから19のデータセットに対して,異なる事前学習法の一般化能力を総合的に評価する。
人体における粗粒度と細粒度の両方の知識を学習するために、異なる粒度レベルで多様な知識を学習するために、 \textbf{P}rojector \textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method (\textbf{PATH})を提案する。
HumanBenchの総合的な評価は、我々のPATHが17の下流データセットと他の2つのデータセットの中間結果に対して、新しい最先端結果を達成することを示している。
コードは href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench} で公開される。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-29T07:53:06Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Deep Learning Technique for Human Parsing: A Survey and Outlook [5.236995853909988]
本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
論文 参考訳(メタデータ) (2023-01-01T12:39:57Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Whole-Body Human Pose Estimation in the Wild [88.09875133989155]
COCO-WholeBodyは、全体アノテーションでCOCOデータセットを拡張する。
これは人体全体に手動のアノテーションがある最初のベンチマークである。
ZoomNetという名前のシングルネットワークモデルは、完全な人体の階層構造を考慮するために考案された。
論文 参考訳(メタデータ) (2020-07-23T08:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。