論文の概要: Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases
- arxiv url: http://arxiv.org/abs/2007.13916v2
- Date: Wed, 29 Jul 2020 05:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:18:30.491963
- Title: Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases
- Title(参考訳): 対照的な自己監督学習のデミスティフィケーション:不変性、拡張性、データセットバイアス
- Authors: Senthil Purushwalkam, Abhinav Gupta
- Abstract要約: 近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
- 参考スコア(独自算出の注目度): 34.02639091680309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning approaches have recently surpassed
their supervised learning counterparts on downstream tasks like object
detection and image classification. Somewhat mysteriously the recent gains in
performance come from training instance classification models, treating each
image and it's augmented versions as samples of a single class. In this work,
we first present quantitative experiments to demystify these gains. We
demonstrate that approaches like MOCO and PIRL learn occlusion-invariant
representations. However, they fail to capture viewpoint and category instance
invariance which are crucial components for object recognition. Second, we
demonstrate that these approaches obtain further gains from access to a clean
object-centric training dataset like Imagenet. Finally, we propose an approach
to leverage unstructured videos to learn representations that possess higher
viewpoint invariance. Our results show that the learned representations
outperform MOCOv2 trained on the same data in terms of invariances encoded and
the performance on downstream image classification and semantic segmentation
tasks.
- Abstract(参考訳): 自己教師付き表現学習アプローチは、最近、オブジェクト検出や画像分類といった下流タスクにおいて、教師付き学習アプローチを超越した。
やや不思議なことに、最近のパフォーマンス向上は、各イメージと拡張バージョンを単一のクラスのサンプルとして扱う、インスタンス分類モデルのトレーニングによるものだ。
本研究では,まず,これらの利得をデミストする定量的実験を行う。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
しかし、オブジェクト認識の重要なコンポーネントであるビューポイントとカテゴリインスタンス不変性は捉えられません。
第2に,imagenet のようなクリーンなオブジェクト中心のトレーニングデータセットへのアクセスにより,これらのアプローチがさらに向上することを示す。
最後に、非構造化ビデオを利用して、高い視点不変性を持つ表現を学習する手法を提案する。
以上の結果から, 学習した表現は, 同一データ上で訓練されたMOCOv2よりも, 符号化した不変性や下流画像の分類やセマンティックセグメンテーションにおける性能に優れていた。
関連論文リスト
- LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - CIPER: Combining Invariant and Equivariant Representations Using
Contrastive and Predictive Learning [6.117084972237769]
比較不変性と予測同変表現学習(CIPER)を導入する。
CIPERは、1つの共有エンコーダとエンコーダの上の2つの異なる出力ヘッドを用いて、不変および同変学習目的を含む。
我々は静的な画像タスクと時間拡張された画像データセットについて評価する。
論文 参考訳(メタデータ) (2023-02-05T07:50:46Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - MixSiam: A Mixture-based Approach to Self-supervised Representation
Learning [33.52892899982186]
近年,ラベルのないデータから視覚表現を学習する過程が顕著に進展している。
従来のシアムネットワークに対する混合型アプローチであるMixSiamを提案する。
論文 参考訳(メタデータ) (2021-11-04T08:12:47Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。