論文の概要: Train a One-Million-Way Instance Classifier for Unsupervised Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2102.04848v1
- Date: Tue, 9 Feb 2021 14:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:17:34.694195
- Title: Train a One-Million-Way Instance Classifier for Unsupervised Visual
Representation Learning
- Title(参考訳): 教師なし視覚表現学習のためのワンミリオンウェイインスタンス分類器の訓練
- Authors: Yu Liu, Lianghua Huang, Pan Pan, Bin Wang, Yinghui Xu, Rong Jin
- Abstract要約: 本稿では、パラメトリックなインスタンスレベルの計算を用いて、データセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習法を提案する。
全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(犬、鳥、船など)はインスタンスIDに置き換えられる。
数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは、1)大規模ソフトマックス分類器、2)インスタンスサンプルの頻度の低い訪問による緩やかな収束、3)ノイズの多い大量の負のクラスなど、特定の課題をもたらす。
- 参考スコア(独自算出の注目度): 45.510042484456854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple unsupervised visual representation learning
method with a pretext task of discriminating all images in a dataset using a
parametric, instance-level classifier. The overall framework is a replica of a
supervised classification model, where semantic classes (e.g., dog, bird, and
ship) are replaced by instance IDs. However, scaling up the classification task
from thousands of semantic labels to millions of instance labels brings
specific challenges including 1) the large-scale softmax computation; 2) the
slow convergence due to the infrequent visiting of instance samples; and 3) the
massive number of negative classes that can be noisy. This work presents
several novel techniques to handle these difficulties. First, we introduce a
hybrid parallel training framework to make large-scale training feasible.
Second, we present a raw-feature initialization mechanism for classification
weights, which we assume offers a contrastive prior for instance discrimination
and can clearly speed up converge in our experiments. Finally, we propose to
smooth the labels of a few hardest classes to avoid optimizing over very
similar negative pairs. While being conceptually simple, our framework achieves
competitive or superior performance compared to state-of-the-art unsupervised
approaches, i.e., SimCLR, MoCoV2, and PIC under ImageNet linear evaluation
protocol and on several downstream visual tasks, verifying that full instance
classification is a strong pretraining technique for many semantic visual
tasks.
- Abstract(参考訳): 本稿では、パラメトリックなインスタンスレベル分類器を用いてデータセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習手法を提案する。
全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(例えば、犬、鳥、船)はインスタンスIDに置き換えられる。
しかし,数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは,1)大規模ソフトマックス計算,2)インスタンスサンプルの頻度の低い訪問による緩やかな収束,3)ノイズの多い負のクラスの数など,特定の課題をもたらす。
本研究はこれらの課題に対処する新しい手法をいくつか提示する。
まず,大規模トレーニングを実現するためのハイブリッド並列トレーニングフレームワークを提案する。
第二に、分類重みの生機能初期化メカニズムを提示し、例えば、差別の前に対照的であり、実験で明らかに収束を加速することができると仮定する。
最後に、非常によく似た負のペアを最適化しないように、最も難しいクラスのラベルを滑らかにすることを提案する。
概念的にはシンプルだが,imagenet線形評価プロトコル下ではsimclr,mocov2,picといった最先端の非教師付きアプローチと,下流の視覚的タスクで比較して,完全なインスタンス分類が多くのセマンティックビジュアルタスクにおいて強力な事前学習技術であることを検証した。
関連論文リスト
- Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Good Instance Classifier is All You Need [18.832471712088353]
MIL設定下では,インスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案する。
また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T12:44:52Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Self-Supervised Classification Network [3.8073142980733]
自己監視型エンドツーエンド分類ニューラルネットワークはラベルと表現を同時に学習する。
大規模なImageNetデータセットでうまく機能する最初の監視されていないエンドツーエンドの分類ネットワーク。
論文 参考訳(メタデータ) (2021-03-19T19:29:42Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。