論文の概要: Data-Efficient Contrastive Self-supervised Learning: Easy Examples
Contribute the Most
- arxiv url: http://arxiv.org/abs/2302.09195v3
- Date: Thu, 11 May 2023 16:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:59:57.588425
- Title: Data-Efficient Contrastive Self-supervised Learning: Easy Examples
Contribute the Most
- Title(参考訳): データ効率の高いコントラスト型自己教師付き学習: 簡単な例が最も貢献
- Authors: Siddharth Joshi and Baharan Mirzasoleiman
- Abstract要約: 自己教師付き学習は、ラベルなしのトレーニングデータの大きなプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
対照的なSSLに最も貢献する例は、他の例と最もよく似た拡張であることを示す。
- 参考スコア(独自算出の注目度): 7.654877347297659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) learns high-quality representations from large
pools of unlabeled training data. As datasets grow larger, it becomes crucial
to identify the examples that contribute the most to learning such
representations. This enables efficient SSL by reducing the volume of data
required for learning high-quality representations. Nevertheless, quantifying
the value of examples for SSL has remained an open question. In this work, we
address this for the first time, by proving that examples that contribute the
most to contrastive SSL are those that have the most similar augmentations to
other examples, in expectation. We provide rigorous guarantees for the
generalization performance of SSL on such subsets. Empirically, we discover,
perhaps surprisingly, the subsets that contribute the most to SSL are those
that contribute the least to supervised learning. Through extensive
experiments, we show that our subsets outperform random subsets by more than 3%
on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely
exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting
downstream task performance.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなしトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
これにより、高品質な表現を学習するために必要なデータの量を削減し、効率的なSSLを可能にする。
それでもSSLの例の定量化は未解決の問題である。
この研究では、コントラストのあるSSLに最も貢献する例が、期待して他の例に最もよく似た拡張を持つ例であることを証明して、初めてこの問題に対処する。
このようなサブセット上でSSLの一般化性能を厳格に保証する。
経験上、sslに最も寄与するサブセットは、監督された学習に最も貢献しない部分集合である。
CIFAR100, CIFAR10, STL10において, 我々のサブセットはランダムサブセットよりも3%以上優れていた。
興味深いことに、CIFAR100から20%、STL10から40%を安全に排除でき、下流タスクのパフォーマンスに影響を与えない。
関連論文リスト
- Views Can Be Deceiving: Improved SSL Through Feature Space Augmentation [27.609748213840138]
本研究では,視覚表現学習における自己監督学習(SSL)に対する刺激的特徴の影響について検討する。
SSLの一般的な拡張は、画像空間における望ましくない不変性を引き起こす可能性があることを示す。
そこで,本研究では,pruningによりエンコーダの後半層を正規化することにより,事前学習中にこれらの表現からスプリアス情報を除去するLateTVGを提案する。
論文 参考訳(メタデータ) (2024-05-28T18:42:13Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning [15.276356824489431]
我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。
我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。
提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T04:32:10Z) - Towards Democratizing Joint-Embedding Self-Supervised Learning [17.59181163979478]
一つのイメージパッチを負の例として用いながら,SimCLRに有用な表現を学習させることが可能であることを示す。
JE-SSLを民主化するために、SSL用に最適化されたPyTorchライブラリを導入します。
論文 参考訳(メタデータ) (2023-03-03T14:55:44Z) - Towards Realistic Semi-Supervised Learning [73.59557447798134]
オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しい手法を提案する。
我々のアプローチは、既存の最先端の7つのデータセットよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-05T19:04:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Self-Supervised Learning: Small is Beautiful [30.809693803413445]
小解像度、小アーキテクチャ、小データという3つの部分を含むスケールダウン自己監督学習(S3L)を提案します。
さまざまなデータセットセットにおいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減しながら、一貫して高い精度を達成する。
論文 参考訳(メタデータ) (2021-03-25T01:48:52Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。