論文の概要: VTBR: Semantic-based Pretraining for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2110.05074v1
- Date: Mon, 11 Oct 2021 08:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:00:13.690747
- Title: VTBR: Semantic-based Pretraining for Person Re-Identification
- Title(参考訳): VTBR:人体再同定のための意味に基づく事前訓練
- Authors: Suncheng Xiang, Zirui Zhang, Mengyuan Guan, Hao Chen, Binjie Yan, Ting
Liu, Yuzhuo Fu
- Abstract要約: 本稿では,VTBRという純粋意味に基づく事前学習手法を提案する。
我々は、FinGPR-Cデータセットのキャプションをスクラッチから畳み込みネットワークをトレーニングし、それらを下流のRe-IDタスクに転送する。
- 参考スコア(独自算出の注目度): 14.0819152482295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining is a dominant paradigm in computer vision. Generally, supervised
ImageNet pretraining is commonly used to initialize the backbones of person
re-identification (Re-ID) models. However, recent works show a surprising
result that ImageNet pretraining has limited impacts on Re-ID system due to the
large domain gap between ImageNet and person Re-ID data. To seek an alternative
to traditional pretraining, we manually construct a diversified FineGPR-C
caption dataset for the first time on person Re-ID events. Based on it, we
propose a pure semantic-based pretraining approach named VTBR, which uses dense
captions to learn visual representations with fewer images. Specifically, we
train convolutional networks from scratch on the captions of FineGPR-C dataset,
and transfer them to downstream Re-ID tasks. Comprehensive experiments
conducted on benchmarks show that our VTBR can achieve competitive performance
compared with ImageNet pretraining -- despite using up to 1.4x fewer images,
revealing its potential in Re-ID pretraining.
- Abstract(参考訳): プレトレーニングはコンピュータビジョンにおいて支配的なパラダイムである。
一般的に、教師付きImageNetプリトレーニングは、人の再識別(Re-ID)モデルのバックボーンの初期化に使用される。
しかし、最近の研究では、ImageNetプレトレーニングが、ImageNetと人物Re-IDデータの間に大きなドメインギャップがあるため、Re-IDシステムに限られた影響を与えることが示されている。
従来の事前トレーニングの代替として,個人によるRe-IDイベントにおいて,FineGPR-Cキャプションデータセットを手作業で構築する。
そこで本研究では,高密度キャプションを用いて画像の少ない視覚表現を学習する,VTBRという純粋意味に基づく事前学習手法を提案する。
具体的には、FinGPR-Cデータセットのキャプションから畳み込みネットワークをトレーニングし、それらを下流のRe-IDタスクに転送する。
ベンチマークで実施された総合的な実験によると、VTBRは ImageNet の事前トレーニングと比較して、最大1.4倍のイメージを使用でき、Re-ID の事前トレーニングの可能性を示している。
関連論文リスト
- DreamTeacher: Pretraining Image Backbones with Deep Generative Models [103.62397699392346]
本稿では、下流画像バックボーンの事前学習に生成ネットワークを利用する自己教師付き特徴表現学習フレームワークを提案する。
1)画像Netなどの大規模ラベル付きデータセット上で,これらのバックボーンを事前学習する代替として,学習した生成特徴を対象画像のバックボーンに蒸留する。
私たちのDreamTeacherは、ボード全体で既存の自己指導型表現学習のアプローチを大幅に上回っていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-07-14T17:17:17Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - The Role of Pre-Training in High-Resolution Remote Sensing Scene
Classification [0.0]
我々は、新しいデータセットをスクラッチからトレーニングすることで、ImageNetで事前トレーニングされたモデルに匹敵する結果が得られることを示す。
多くの場合、最良の表現はドメイン内データを使った事前学習の第2ラウンドで得られる。
論文 参考訳(メタデータ) (2021-11-05T18:30:54Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z) - RGB-based Semantic Segmentation Using Self-Supervised Depth Pre-Training [77.62171090230986]
本稿では,任意の意味的RGBセグメンテーション手法の事前学習に使用できる,スケーラブルで自己管理の容易な手法を提案する。
特に、我々の事前学習アプローチでは、深度センサーを用いて得られるラベルを自動生成する。
提案したHNラベルによる自己教師付き事前学習が,ImageNetの事前学習にどのように応用できるかを示す。
論文 参考訳(メタデータ) (2020-02-06T11:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。