論文の概要: Unsupervised Pretraining for Object Detection by Patch Reidentification
- arxiv url: http://arxiv.org/abs/2103.04814v1
- Date: Mon, 8 Mar 2021 15:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:30:58.851687
- Title: Unsupervised Pretraining for Object Detection by Patch Reidentification
- Title(参考訳): パッチ識別によるオブジェクト検出のための教師なしプリトレーニング
- Authors: Jian Ding, Enze Xie, Hang Xu, Chenhan Jiang, Zhenguo Li, Ping Luo,
Gui-Song Xia
- Abstract要約: 教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
- 参考スコア(独自算出の注目度): 72.75287435882798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning achieves promising performances in
pre-training representations for object detectors. However, previous approaches
are mainly designed for image-level classification, leading to suboptimal
detection performance. To bridge the performance gap, this work proposes a
simple yet effective representation learning method for object detection, named
patch re-identification (Re-ID), which can be treated as a contrastive pretext
task to learn location-discriminative representation unsupervisedly, possessing
appealing advantages compared to its counterparts. Firstly, unlike
fully-supervised person Re-ID that matches a human identity in different camera
views, patch Re-ID treats an important patch as a pseudo identity and
contrastively learns its correspondence in two different image views, where the
pseudo identity has different translations and transformations, enabling to
learn discriminative features for object detection. Secondly, patch Re-ID is
performed in Deeply Unsupervised manner to learn multi-level representations,
appealing to object detection. Thirdly, extensive experiments show that our
method significantly outperforms its counterparts on COCO in all settings, such
as different training iterations and data percentages. For example, Mask R-CNN
initialized with our representation surpasses MoCo v2 and even its
fully-supervised counterparts in all setups of training iterations (e.g. 2.1
and 1.1 mAP improvement compared to MoCo v2 in 12k and 90k iterations
respectively). Code will be released at https://github.com/dingjiansw101/DUPR.
- Abstract(参考訳): 教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
しかし、従来のアプローチは主に画像レベルの分類のために設計されており、サブ最適検出性能に繋がる。
本研究では,対象物検出のための簡便かつ効果的な表現学習法であるパッチ再同定(Re-ID)を提案する。
第一に、人間のアイデンティティを異なるカメラビューでマッチングする完全に監督された人であるRe-IDとは異なり、パッチRe-IDは重要なパッチを擬似IDとして扱い、2つの異なる画像ビューでその対応を対照的に学習する。
第二に、パッチ再IDは、オブジェクト検出に訴える、マルチレベルの表現を学ぶためにDeeply Unsupervised方法で実行されます。
第3に,本手法はトレーニングイテレーションやデータパーセンテージなど,すべての設定でcocoに比較して有意な性能を示す実験を行った。
例えば、Mask R-CNNはMoCo v2を上回り、トレーニングイテレーションのすべてのセットアップで完全に監視されたもの(例:.com)を上回ります。
2.1と1.1 mAPの改善は、それぞれ12kと90kのイテレーションでMoCo v2と比較した)。
コードはhttps://github.com/dingjiansw101/duprでリリースされる。
関連論文リスト
- From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Deepfake Detection via Joint Unsupervised Reconstruction and Supervised
Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。
この方法は、あるタスクによって学習された情報を他のタスクと共有する。
提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T05:44:26Z) - Pseudo-Pair based Self-Similarity Learning for Unsupervised Person
Re-identification [47.44945334929426]
擬似ペアを用いた自己相似学習手法を提案する。
本稿では,画像に擬似ラベルを付与する手法を提案する。
個々の画像から同相性を用いて局所的な識別特徴を学習し、同相性を介して画像間のパッチ対応を検出する。
論文 参考訳(メタデータ) (2022-07-09T04:05:06Z) - InsCon:Instance Consistency Feature Representation via Self-Supervised
Learning [9.416267640069297]
InsConという,マルチインスタンス情報を取得するための,エンドツーエンドの自己管理フレームワークを提案する。
InsConは、マルチインスタンスイメージを入力として適用し、学習した機能を対応するインスタンスビュー間で整合させるターゲット学習パラダイムを構築している。
一方、InsConでは、セルの一貫性を利用して微細な特徴表現を強化するセルインスタンスのプルとプッシュを導入している。
論文 参考訳(メタデータ) (2022-03-15T07:09:00Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。