論文の概要: Part-Aware Self-Supervised Pre-Training for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2203.03931v1
- Date: Tue, 8 Mar 2022 08:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:58:48.532319
- Title: Part-Aware Self-Supervised Pre-Training for Person Re-Identification
- Title(参考訳): 個人再識別のための部分的自己監督型事前訓練
- Authors: Kuan Zhu, Haiyun Guo, Tianyi Yan, Yousong Zhu, Jinqiao Wang, Ming Tang
- Abstract要約: 個人再識別(ReID)に適したパートアウェア自己監督型事前訓練
PASSは、きめ細かい情報を提供する部分レベルの機能を生成する。
PASS は 92.2%/90.2%/88.5% mAP の精度を Market1501 で達成している。
- 参考スコア(独自算出の注目度): 37.2347750220591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In person re-identification (ReID), very recent researches have validated
pre-training the models on unlabelled person images is much better than on
ImageNet. However, these researches directly apply the existing self-supervised
learning (SSL) methods designed for image classification to ReID without any
adaption in the framework. These SSL methods match the outputs of local views
(e.g., red T-shirt, blue shorts) to those of the global views at the same time,
losing lots of details. In this paper, we propose a ReID-specific pre-training
method, Part-Aware Self-Supervised pre-training (PASS), which can generate
part-level features to offer fine-grained information and is more suitable for
ReID. PASS divides the images into several local areas, and the local views
randomly cropped from each area are assigned with a specific learnable [PART]
token. On the other hand, the [PART]s of all local areas are also appended to
the global views. PASS learns to match the output of the local views and global
views on the same [PART]. That is, the learned [PART] of the local views from a
local area is only matched with the corresponding [PART] learned from the
global views. As a result, each [PART] can focus on a specific local area of
the image and extracts fine-grained information of this area. Experiments show
PASS sets the new state-of-the-art performances on Market1501 and MSMT17 on
various ReID tasks, e.g., vanilla ViT-S/16 pre-trained by PASS achieves
92.2\%/90.2\%/88.5\% mAP accuracy on Market1501 for supervised/UDA/USL ReID.
Our codes are available at https://github.com/CASIA-IVA-Lab/PASS-reID.
- Abstract(参考訳): 人物再識別(ReID)において、最近の研究は、未認識の人物画像上でモデルを事前訓練することが、ImageNetよりもはるかに優れていることを実証している。
しかし、これらの研究は、画像分類用に設計された既存の自己教師あり学習(SSL)手法を直接ReIDに適用する。
これらのSSLメソッドは、ローカルビュー(例えば、赤いTシャツ、青いショートパンツ)の出力とグローバルビューの出力を同時に一致させ、多くの詳細を失う。
本稿では,ReID固有の事前学習手法であるPart-Aware Self-Supervised Pre-training (PASS)を提案する。
passは画像をいくつかのローカル領域に分割し、各領域からランダムに切り抜かれたローカルビューに特定の学習可能な[part]トークンを割り当てる。
一方,全地域の[一部]がグローバルビューに付加されている。
PASSは同じ[PART]上のローカルビューとグローバルビューの出力に一致することを学習する。
すなわち、地域からのローカルビューの学習[一部]は、グローバルビューから学んだ対応する[一部]としか一致しない。
その結果、各[PART]は画像の特定の局所領域に集中し、その領域のきめ細かい情報を抽出することができる。
実験の結果、PASSはMarket1501とMSMT17の様々なReIDタスク(例えば、PASSが事前訓練したバニラVT-S/16では、Market1501の92.2\%/90.2\%/88.5\% mAP精度を監督/UDA/USL ReIDに設定している。
私たちのコードはhttps://github.com/CASIA-IVA-Lab/PASS-reIDで公開されています。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Extending global-local view alignment for self-supervised learning with remote sensing imagery [1.5192294544599656]
自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化することにより、一般的な特徴表現を取得する。
DINOに触発されて、リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。
我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
論文 参考訳(メタデータ) (2023-03-12T14:24:10Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Region Semantically Aligned Network for Zero-Shot Learning [18.18665627472823]
本研究では、未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。
出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。
いくつかの標準ZSLデータセットの実験では、提案したRSAN法の利点が示され、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-14T03:23:40Z) - Global-Local Dynamic Feature Alignment Network for Person
Re-Identification [5.202841879001503]
本研究では,歩行者の局所ストライプにスライド窓を設置することにより,2つの画像の局所的特徴を動的に整列させる,シンプルで効率的な局所スライディングアライメント(LSA)戦略を提案する。
LSAは空間的不整合を効果的に抑制することができ、追加の監視情報を導入する必要はない。
GLDFA-NetのローカルブランチにLSAを導入し、距離メトリクスの計算をガイドし、テストフェーズの精度をさらに向上させる。
論文 参考訳(メタデータ) (2021-09-13T07:53:36Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。