論文の概要: PersonMAE: Person Re-Identification Pre-Training with Masked
AutoEncoders
- arxiv url: http://arxiv.org/abs/2311.04496v1
- Date: Wed, 8 Nov 2023 07:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:52:00.151645
- Title: PersonMAE: Person Re-Identification Pre-Training with Masked
AutoEncoders
- Title(参考訳): PersonMAE: マスク付きオートエンコーダによる人物識別事前訓練
- Authors: Hezhen Hu, Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Lu Yuan, Dong
Chen, Houqiang Li
- Abstract要約: 個人再識別のための汎用的特徴表現(ReID)の学習において,事前学習はますます重要な役割を担っている
本稿では,Person Re-IDの課題に対処するために,2つのコア設計をマスク付きオートエンコーダに組み込んだPersonMAEを提案する。
ViT-Bのバックボーンを持つ PersonMAE は MSMT17 と OccDuke のデータセット上で 79.8% と 69.5% の mAP を達成する。
- 参考スコア(独自算出の注目度): 132.60355401780407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training is playing an increasingly important role in learning generic
feature representation for Person Re-identification (ReID). We argue that a
high-quality ReID representation should have three properties, namely,
multi-level awareness, occlusion robustness, and cross-region invariance. To
this end, we propose a simple yet effective pre-training framework, namely
PersonMAE, which involves two core designs into masked autoencoders to better
serve the task of Person Re-ID. 1) PersonMAE generates two regions from the
given image with RegionA as the input and \textit{RegionB} as the prediction
target. RegionA is corrupted with block-wise masking to mimic common occlusion
in ReID and its remaining visible parts are fed into the encoder. 2) Then
PersonMAE aims to predict the whole RegionB at both pixel level and semantic
feature level. It encourages its pre-trained feature representations with the
three properties mentioned above. These properties make PersonMAE compatible
with downstream Person ReID tasks, leading to state-of-the-art performance on
four downstream ReID tasks, i.e., supervised (holistic and occluded setting),
and unsupervised (UDA and USL setting). Notably, on the commonly adopted
supervised setting, PersonMAE with ViT-B backbone achieves 79.8% and 69.5% mAP
on the MSMT17 and OccDuke datasets, surpassing the previous state-of-the-art by
a large margin of +8.0 mAP, and +5.3 mAP, respectively.
- Abstract(参考訳): 事前学習は、人物再識別(ReID)のための一般的な特徴表現を学ぶ上で、ますます重要な役割を担っている。
高品質なReID表現は、3つの特性、すなわち多レベル認識、排他的堅牢性、領域間不変性を持つべきである。
そこで本研究では,Person Re-ID の課題に対処するため,マスク付きオートエンコーダに2つのコア設計を組み込んだシンプルな事前学習フレームワークである PersonMAE を提案する。
1) PersonMAE は、入力として RegionA と予測対象として \textit{RegionB} の2つの領域を生成する。
リージョンAはブロックワイズマスキングによって破壊され、ReIDの共通閉塞を模倣し、残りの可視部分はエンコーダに供給される。
2) personmaeは、ピクセルレベルと意味的特徴レベルで、全領域を予測することを目指している。
前述の3つの特性で事前訓練された特徴表現を奨励する。
これらの特性により、PersonMAEはダウンストリームのPerson ReIDタスクと互換性があり、4つのダウンストリームのReIDタスク、すなわち、教師付き(全体的および排他的)および教師なし(UDAとUSLの設定)で最先端のパフォーマンスをもたらす。
特に、一般的に採用されているVT-BバックボーンのPersonMAEは、MSMT17とOccDukeのデータセットで79.8%と69.5%のmAPを達成し、それぞれ+8.0mAPと+5.3mAPを大きく上回っている。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Body Part-Based Representation Learning for Occluded Person
Re-Identification [102.27216744301356]
隠蔽人物再識別(ReID)とは,隠蔽人物画像と包括的人物画像とのマッチングを目的とした人物検索タスクである。
パートベースの手法は、微細な情報を提供し、部分的に見える人間の体を表現するのに適しているため、有益であることが示されている。
本稿では,BPBreIDという身体部分に基づくReIDモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T16:48:41Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Learning Feature Fusion for Unsupervised Domain Adaptive Person
Re-identification [5.203329540700176]
グローバルな特徴とローカルな特徴を融合させるための適応学習のための学習機能融合(LF2)フレームワークを提案する。
実験の結果,提案するLF2フレームワークは,Market1501で73.5% mAP,83.7% Rank1で最先端のDukeMTMC-ReIDを上回った。
論文 参考訳(メタデータ) (2022-05-19T12:04:21Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Integrating Coarse Granularity Part-level Features with Supervised
Global-level Features for Person Re-identification [3.4758712821739426]
パートレベルの人物Re-IDネットワーク(CGPN)は、全体像と部分像の両方に教師付きグローバル機能を統合する。
CGPNは、全体像と部分像の両方に有効な身体部分の特徴を抽出することを学ぶ。
Market-1501、DukeMTMC-reID、CUHK03といった3つのRe-IDデータセットでトレーニングされた単一モデル。
論文 参考訳(メタデータ) (2020-10-15T11:49:20Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。