論文の概要: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial
Examples for Supervised Learning Contribute the Least
- arxiv url: http://arxiv.org/abs/2302.09195v5
- Date: Tue, 12 Mar 2024 19:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 19:26:39.147961
- Title: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial
Examples for Supervised Learning Contribute the Least
- Title(参考訳): データ効率のよいコントラスト型自己教師型学習:最も有効である
学びの指導的貢献例
- Authors: Siddharth Joshi and Baharan Mirzasoleiman
- Abstract要約: 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
対照的なSSLに最も貢献する例は、他の例と最もよく似た拡張であることを示す。
- 参考スコア(独自算出の注目度): 14.516008359896421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) learns high-quality representations from large
pools of unlabeled training data. As datasets grow larger, it becomes crucial
to identify the examples that contribute the most to learning such
representations. This enables efficient SSL by reducing the volume of data
required. Nevertheless, quantifying the value of examples for SSL has remained
an open question. In this work, we address this problem for the first time, by
proving that examples that contribute the most to contrastive SSL are those
that have the most similar augmentations to other examples, in expectation. We
provide rigorous guarantees for the generalization performance of contrastive
learning on such subsets. Through extensive experiments, we show that we can
safely exclude 20% of examples from CIFAR100 and 40% from STL10 and
TinyImageNet, without affecting downstream task performance. In general,
subsets selected by our method outperform random subsets by over 3% across
these datasets. Interestingly, we also discover the subsets that contribute the
most to contrastive learning are those that contribute the least to supervised
learning. Code available at
https://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learning.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
これにより、必要なデータ量を減らすことで、効率的なSSLが可能になる。
それでもSSLの例の価値を定量化することは、未解決の問題である。
本研究では,SSLに最も貢献する例が,予想される他の例と最もよく似た拡張であることを示すことによって,この問題に初めて対処する。
このような部分集合に対するコントラスト学習の一般化性能の厳密な保証を提供する。
CIFAR100から20%、STL10やTinyImageNetから40%のサンプルを安全に取り除き、ダウンストリームタスクのパフォーマンスに影響を与えないことを示す。
一般に,本手法で選択したサブセットは,これらのデータセットに対して,ランダムなサブセットを3%以上上回っている。
興味深いことに、コントラスト学習に最も貢献するサブセットは、教師付き学習に最も貢献するサブセットである。
コードはhttps://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learningで公開されている。
関連論文リスト
- Views Can Be Deceiving: Improved SSL Through Feature Space Augmentation [27.609748213840138]
本研究では,視覚表現学習における自己監督学習(SSL)に対する刺激的特徴の影響について検討する。
SSLの一般的な拡張は、画像空間における望ましくない不変性を引き起こす可能性があることを示す。
そこで,本研究では,pruningによりエンコーダの後半層を正規化することにより,事前学習中にこれらの表現からスプリアス情報を除去するLateTVGを提案する。
論文 参考訳(メタデータ) (2024-05-28T18:42:13Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning [15.276356824489431]
我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。
我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。
提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T04:32:10Z) - Towards Democratizing Joint-Embedding Self-Supervised Learning [17.59181163979478]
一つのイメージパッチを負の例として用いながら,SimCLRに有用な表現を学習させることが可能であることを示す。
JE-SSLを民主化するために、SSL用に最適化されたPyTorchライブラリを導入します。
論文 参考訳(メタデータ) (2023-03-03T14:55:44Z) - Towards Realistic Semi-Supervised Learning [73.59557447798134]
オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しい手法を提案する。
我々のアプローチは、既存の最先端の7つのデータセットよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-05T19:04:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Self-Supervised Learning: Small is Beautiful [30.809693803413445]
小解像度、小アーキテクチャ、小データという3つの部分を含むスケールダウン自己監督学習(S3L)を提案します。
さまざまなデータセットセットにおいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減しながら、一貫して高い精度を達成する。
論文 参考訳(メタデータ) (2021-03-25T01:48:52Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。