論文の概要: PRSNet: A Masked Self-Supervised Learning Pedestrian Re-Identification
Method
- arxiv url: http://arxiv.org/abs/2303.06330v1
- Date: Sat, 11 Mar 2023 07:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:36:20.400023
- Title: PRSNet: A Masked Self-Supervised Learning Pedestrian Re-Identification
Method
- Title(参考訳): prsnet: マスク付き自己教師付き学習歩行者再同定法
- Authors: Zhijie Xiao, Zhicheng Dong, Hao Xiang
- Abstract要約: 本論文は, 強靭性を有する事前学習モデルを得るために, マスク再構築の前タスクを設計する。
センタロイドに基づいて三重項損失を改善することにより、ネットワークのトレーニング最適化を行う。
この手法は、既存の自己教師型学習歩行者再識別法よりも、Marker1501およびCUHK03データ上で約5%高いmAPを達成する。
- 参考スコア(独自算出の注目度): 2.0411082897313984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, self-supervised learning has attracted widespread academic
debate and addressed many of the key issues of computer vision. The present
research focus is on how to construct a good agent task that allows for
improved network learning of advanced semantic information on images so that
model reasoning is accelerated during pre-training of the current task. In
order to solve the problem that existing feature extraction networks are
pre-trained on the ImageNet dataset and cannot extract the fine-grained
information in pedestrian images well, and the existing pre-task of contrast
self-supervised learning may destroy the original properties of pedestrian
images, this paper designs a pre-task of mask reconstruction to obtain a
pre-training model with strong robustness and uses it for the pedestrian
re-identification task. The training optimization of the network is performed
by improving the triplet loss based on the centroid, and the mask image is
added as an additional sample to the loss calculation, so that the network can
better cope with the pedestrian matching in practical applications after the
training is completed. This method achieves about 5% higher mAP on Marker1501
and CUHK03 data than existing self-supervised learning pedestrian
re-identification methods, and about 1% higher for Rank1, and ablation
experiments are conducted to demonstrate the feasibility of this method. Our
model code is located at https://github.com/ZJieX/prsnet.
- Abstract(参考訳): 近年、自己指導型学習は広く学術的な議論を巻き起こし、コンピュータビジョンの重要な問題の多くに対処している。
本研究は,画像上の高度な意味情報のネットワーク学習を改善し,現在のタスクの事前学習中にモデル推論を高速化する,優れたエージェントタスクの構築方法に注目する。
既存の特徴抽出ネットワークをimagenetデータセット上で事前学習し、歩行者画像のきめ細かな情報をうまく抽出できず、コントラスト自己教師付き学習の既存の事前タスクが歩行者画像の本来の特性を損なう可能性があるという問題を解決するため、マスク復元の事前タスクをデザインし、強固な事前学習モデルを取得し、歩行者再識別タスクに使用する。
センタロイドに基づいて三重項損失を改善してネットワークのトレーニング最適化を行い、損失計算にマスク画像を追加サンプルとして付加することにより、トレーニングが完了した後、実用的な用途において、ネットワークが歩行者マッチングに対処できるようにする。
本手法は,既存の自己教師付き学習歩行者再同定法よりも,marker1501およびcuhk03データ上で約5%高いマップを得られ,rank1では約1%高く,アブレーション実験により実現可能性を示す。
私たちのモデルはhttps://github.com/ZJieX/prsnetにあります。
関連論文リスト
- Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Enhancing pretraining efficiency for medical image segmentation via transferability metrics [0.0]
医用画像のセグメンテーションタスクでは、ラベル付きトレーニングデータの不足が大きな課題となっている。
本稿では,事前学習したモデルが対象データをいかに頑健に表現できるかを計測する,対照的な学習に基づく新しい伝達可能性指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T12:11:52Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Continual Contrastive Self-supervised Learning for Image Classification [10.070132585425938]
自己超越学習法は,大規模にラベル付けされたデータを持たない視覚表現に極めて有意な可能性を示す。
自己教師付き学習の視覚的表現を改善するには、より大きく、より多様なデータが必要である。
本稿では,リハーサル手法を提案することによって,連続的なコントラスト型自己教師型学習を実現するための最初の試みを行う。
論文 参考訳(メタデータ) (2021-07-05T03:53:42Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。