論文の概要: PersonViT: Large-scale Self-supervised Vision Transformer for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2408.05398v2
- Date: Tue, 20 Aug 2024 11:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:00:29.701479
- Title: PersonViT: Large-scale Self-supervised Vision Transformer for Person Re-Identification
- Title(参考訳): PersonViT: 個人再識別のための大規模自己監督型視覚変換器
- Authors: Bin Hu, Xinggang Wang, Wenyu Liu,
- Abstract要約: 本稿では,最近登場したMasked Image Modeling (MIM) の自己教師型学習手法について紹介する。
大規模な教師なし事前訓練を通じて、高品質でグローバルな特徴とローカルな特徴を効果的に抽出する。
MSMT17、Market1501、DukeMTMC-reID、Occluded-Dukeなど、公開されているベンチマークデータセットの最先端結果を実現している。
- 参考スコア(独自算出の注目度): 41.19315819831449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person Re-Identification (ReID) aims to retrieve relevant individuals in non-overlapping camera images and has a wide range of applications in the field of public safety. In recent years, with the development of Vision Transformer (ViT) and self-supervised learning techniques, the performance of person ReID based on self-supervised pre-training has been greatly improved. Person ReID requires extracting highly discriminative local fine-grained features of the human body, while traditional ViT is good at extracting context-related global features, making it difficult to focus on local human body features. To this end, this article introduces the recently emerged Masked Image Modeling (MIM) self-supervised learning method into person ReID, and effectively extracts high-quality global and local features through large-scale unsupervised pre-training by combining masked image modeling and discriminative contrastive learning, and then conducts supervised fine-tuning training in the person ReID task. This person feature extraction method based on ViT with masked image modeling (PersonViT) has the good characteristics of unsupervised, scalable, and strong generalization capabilities, overcoming the problem of difficult annotation in supervised person ReID, and achieves state-of-the-art results on publicly available benchmark datasets, including MSMT17, Market1501, DukeMTMC-reID, and Occluded-Duke. The code and pre-trained models of the PersonViT method are released at \url{https://github.com/hustvl/PersonViT} to promote further research in the person ReID field.
- Abstract(参考訳): Person Re-Identification (ReID) は、重複しないカメラ画像中の関連個人を検索することを目的としており、公共の安全分野に幅広い応用がある。
近年、視覚変換器(ViT)と自己教師あり学習技術の開発により、自己教師あり事前学習に基づく人物ReIDの性能が大幅に向上している。
Person ReIDは、人体の高度に識別された局所的な微細な特徴を抽出する必要があるが、従来のViTは、文脈に関連したグローバルな特徴を抽出するのが得意であり、局所的な人体の特徴に焦点を絞ることが困難である。
本稿では,最近登場したMasked Image Modeling (MIM) の自己教師付き学習手法について紹介し,マスク付き画像モデリングと識別的コントラスト学習を組み合わせた大規模教師なし事前学習を通じて,高品質なグローバル・ローカルな特徴を効果的に抽出し,人物ReIDタスクにおける教師付き微調整訓練を行う。
マスク付き画像モデリング(PersonViT)を用いた人物特徴抽出手法は、教師なし、スケーラブルで強力な一般化能力の優れた特徴を有し、教師付き人物ReIDの難しいアノテーションの問題を克服し、MSMT17、Market1501、DukeMTMC-reID、Occluded-Dukeなどの公開ベンチマークデータセットに対して最先端の結果を得る。
PersonViT メソッドのコードと事前訓練されたモデルは \url{https://github.com/hustvl/PersonViT} でリリースされる。
関連論文リスト
- Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。
我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。
提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-10-21T03:17:25Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Leveraging background augmentations to encourage semantic focus in
self-supervised contrastive learning [16.93045612956149]
背景強化」は、画像の背景に焦点を合わせないようにし、意味的関連コンテンツに焦点を合わせることを奨励する。
背景の増強は、最先端の自己監督方法のスペクトル全体のパフォーマンスの大幅な改善(ImageNet-1kで+1-2%)につながります。
論文 参考訳(メタデータ) (2021-03-23T17:39:16Z) - MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image
Generation [13.06676286691587]
姿勢誘導型人物画像生成は通常、トレーニングを監督するためにペアのソースターゲット画像を使用する。
本稿では,人物画像から多段階の外観特徴を分離・伝達する,新しい多段階統計伝達モデルを提案する。
提案手法は,人物の外観を柔軟に操作し,ポーズ・トランスファーや衣服スタイル・トランスファー・タスクを行う。
論文 参考訳(メタデータ) (2020-11-18T04:38:48Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。