論文の概要: HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception
- arxiv url: http://arxiv.org/abs/2310.20695v1
- Date: Tue, 31 Oct 2023 17:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 13:37:46.570099
- Title: HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception
- Title(参考訳): hap:人間中心知覚のための構造認識マスク画像モデリング
- Authors: Junkun Yuan, Xinyu Zhang, Hao Zhou, Jian Wang, Zhongwei Qiu, Zhiyin
Shao, Shaofeng Zhang, Sifan Long, Kun Kuang, Kun Yao, Junyu Han, Errui Ding,
Lanfen Lin, Fei Wu, Jingdong Wang
- Abstract要約: 本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
- 参考スコア(独自算出の注目度): 97.55089867970874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model pre-training is essential in human-centric perception. In this paper,
we first introduce masked image modeling (MIM) as a pre-training approach for
this task. Upon revisiting the MIM training strategy, we reveal that human
structure priors offer significant potential. Motivated by this insight, we
further incorporate an intuitive human structure prior - human parts - into
pre-training. Specifically, we employ this prior to guide the mask sampling
process. Image patches, corresponding to human part regions, have high priority
to be masked out. This encourages the model to concentrate more on body
structure information during pre-training, yielding substantial benefits across
a range of human-centric perception tasks. To further capture human
characteristics, we propose a structure-invariant alignment loss that enforces
different masked views, guided by the human part prior, to be closely aligned
for the same image. We term the entire method as HAP. HAP simply uses a plain
ViT as the encoder yet establishes new state-of-the-art performance on 11
human-centric benchmarks, and on-par result on one dataset. For example, HAP
achieves 78.1% mAP on MSMT17 for person re-identification, 86.54% mA on PA-100K
for pedestrian attribute recognition, 78.2% AP on MS COCO for 2D pose
estimation, and 56.0 PA-MPJPE on 3DPW for 3D pose and shape estimation.
- Abstract(参考訳): モデル事前学習は人間中心の知覚に不可欠である。
本稿ではまず,この課題に対する事前学習手法としてマスク付き画像モデリング(MIM)を導入する。
MIMトレーニング戦略を再考すると、人体構造が大きな可能性を秘めていることが明らかとなった。
この知見に触発され、人間の前部である直感的な人間の構造を事前学習に取り入れる。
具体的には,マスクサンプリングプロセスの導出に先立ってこれを用いる。
人間の部分領域に対応する画像パッチは、マスキングの優先度が高い。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
さらに人的特徴を捉えるために,前もって人的部分によって誘導される異なるマスキングビューを,同じ画像に対して密にアライメントする構造不変アライメント損失を提案する。
メソッド全体をHAPと呼びます。
HAPは、単に平易なViTをエンコーダとして使用するだけで、11の人間中心のベンチマークで新しい最先端のパフォーマンスを確立し、1つのデータセットでオンパー結果を生成する。
例えば、HAPは、人物再識別のためのMSMT17で78.1% mAP、歩行者属性認識のためのPA-100Kで86.54% mA、2Dポーズ推定のためのMS COCOで78.2% AP、3Dポーズと形状推定のための3DPWで56.0 PA-MPJPEを達成している。
関連論文リスト
- Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z) - Bottom-Up 2D Pose Estimation via Dual Anatomical Centers for Small-Scale
Persons [75.86463396561744]
マルチパーソン2Dポーズ推定では、ボトムアップ手法は同時にすべての人のポーズを予測する。
本手法は,バウンディングボックス精度を38.4%改善し,バウンディングボックスリコールを39.1%改善した。
ヒトのポーズAP評価では,COCOテストデフセット上で新しいSOTA(71.0 AP)を単一スケールテストで達成する。
論文 参考訳(メタデータ) (2022-08-25T10:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。