論文の概要: Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2111.12084v1
- Date: Tue, 23 Nov 2021 18:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:56:06.789071
- Title: Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification
- Title(参考訳): 変圧器型人物再同定のための自己教師付き事前学習
- Authors: Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang, Hao Li,
Rong Jin
- Abstract要約: トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
- 参考スコア(独自算出の注目度): 54.55281692768765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based supervised pre-training achieves great performance in
person re-identification (ReID). However, due to the domain gap between
ImageNet and ReID datasets, it usually needs a larger pre-training dataset
(e.g. ImageNet-21K) to boost the performance because of the strong data fitting
ability of the transformer. To address this challenge, this work targets to
mitigate the gap between the pre-training and ReID datasets from the
perspective of data and model structure, respectively. We first investigate
self-supervised learning (SSL) methods with Vision Transformer (ViT) pretrained
on unlabelled person images (the LUPerson dataset), and empirically find it
significantly surpasses ImageNet supervised pre-training models on ReID tasks.
To further reduce the domain gap and accelerate the pre-training, the
Catastrophic Forgetting Score (CFS) is proposed to evaluate the gap between
pre-training and fine-tuning data. Based on CFS, a subset is selected via
sampling relevant data close to the down-stream ReID data and filtering
irrelevant data from the pre-training dataset. For the model structure, a
ReID-specific module named IBN-based convolution stem (ICS) is proposed to
bridge the domain gap by learning more invariant features. Extensive
experiments have been conducted to fine-tune the pre-training models under
supervised learning, unsupervised domain adaptation (UDA), and unsupervised
learning (USL) settings. We successfully downscale the LUPerson dataset to 50%
with no performance degradation. Finally, we achieve state-of-the-art
performance on Market-1501 and MSMT17. For example, our ViT-S/16 achieves
91.3%/89.9%/89.6% mAP accuracy on Market1501 for supervised/UDA/USL ReID. Codes
and models will be released to https://github.com/michuanhaohao/TransReID-SSL.
- Abstract(参考訳): トランスフォーマーをベースとした教師付き事前訓練は、人物再識別(ReID)において大きな性能を発揮する。
しかし、ImageNetとReIDデータセットのドメインギャップのため、トランスフォーマーの強力なデータ適合能力のためにパフォーマンスを向上させるために、通常、より大きな事前トレーニングデータセット(ImageNet-21Kなど)が必要である。
この課題に対処するため、この研究は、データとモデル構造の観点から、プリトレーニングとreidデータセット間のギャップを緩和することを目的としている。
視覚変換器 (ViT) を用いた自己教師あり学習(SSL) 手法をまず, ラベルのない人物画像(LUPerson データセット)で事前訓練し, ReID タスクにおける ImageNet による教師あり事前訓練モデルを大幅に上回っていることを実証的に確認した。
ドメインギャップをさらに減らし,事前学習を加速するため,予備学習データと微調整データとのギャップを評価するためにCFS(Caastrophic Forgetting Score)を提案する。
CFSに基づいて、サブセットは、下流のReIDデータに近い関連データをサンプリングし、トレーニング前のデータセットから無関係データをフィルタリングすることで選択される。
モデル構造では, IBN-based convolution stem (ICS) と呼ばれるReID固有のモジュールが, より不変な特徴を学習することによって, ドメインギャップを橋渡しするために提案されている。
教師付き学習、教師なしドメイン適応(UDA)、教師なし学習(USL)設定の下で、事前学習モデルを微調整するための大規模な実験が行われた。
LUPersonデータセットを50%までダウンスケールすることに成功しました。
最後に,Market-1501とMSMT17の最先端性能を実現する。
例えば、我々の ViT-S/16 は Market1501 で 91.3%/89.9%/89.6% mAP の精度を達成している。
コードとモデルはhttps://github.com/michuanhaohao/TransReID-SSLにリリースされる。
関連論文リスト
- Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud
Dataset [25.935496432142976]
知覚モデルが大規模なクラウドデータセットから学ぶことは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
我々は、ポイントクラウド事前トレーニングタスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模ラベルなしのポイントクラウドデータを活用する。
我々は、異なるベースラインモデルの下で、nuScenesやKITTIを含む一連の下流認識ベンチマークにおいて、大幅な性能向上を達成する。
論文 参考訳(メタデータ) (2023-06-01T12:32:52Z) - The Role of Pre-training Data in Transfer Learning [20.768366728182997]
プレトレーニングデータ分布が複数ショットおよびフル微調整性能に与える影響について検討する。
プレトレーニングされたデータソースの選択は、数ショットの転送には不可欠であることがわかったが、その役割は微調整のためにより多くのデータが利用可能になるにつれて減少する。
論文 参考訳(メタデータ) (2023-02-27T09:10:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。