論文の概要: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial
Examples for Supervised Learning Contribute the Least
- arxiv url: http://arxiv.org/abs/2302.09195v5
- Date: Tue, 12 Mar 2024 19:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 19:26:39.147961
- Title: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial
Examples for Supervised Learning Contribute the Least
- Title(参考訳): データ効率のよいコントラスト型自己教師型学習:最も有効である
学びの指導的貢献例
- Authors: Siddharth Joshi and Baharan Mirzasoleiman
- Abstract要約: 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
対照的なSSLに最も貢献する例は、他の例と最もよく似た拡張であることを示す。
- 参考スコア(独自算出の注目度): 14.516008359896421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) learns high-quality representations from large
pools of unlabeled training data. As datasets grow larger, it becomes crucial
to identify the examples that contribute the most to learning such
representations. This enables efficient SSL by reducing the volume of data
required. Nevertheless, quantifying the value of examples for SSL has remained
an open question. In this work, we address this problem for the first time, by
proving that examples that contribute the most to contrastive SSL are those
that have the most similar augmentations to other examples, in expectation. We
provide rigorous guarantees for the generalization performance of contrastive
learning on such subsets. Through extensive experiments, we show that we can
safely exclude 20% of examples from CIFAR100 and 40% from STL10 and
TinyImageNet, without affecting downstream task performance. In general,
subsets selected by our method outperform random subsets by over 3% across
these datasets. Interestingly, we also discover the subsets that contribute the
most to contrastive learning are those that contribute the least to supervised
learning. Code available at
https://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learning.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
これにより、必要なデータ量を減らすことで、効率的なSSLが可能になる。
それでもSSLの例の価値を定量化することは、未解決の問題である。
本研究では,SSLに最も貢献する例が,予想される他の例と最もよく似た拡張であることを示すことによって,この問題に初めて対処する。
このような部分集合に対するコントラスト学習の一般化性能の厳密な保証を提供する。
CIFAR100から20%、STL10やTinyImageNetから40%のサンプルを安全に取り除き、ダウンストリームタスクのパフォーマンスに影響を与えないことを示す。
一般に,本手法で選択したサブセットは,これらのデータセットに対して,ランダムなサブセットを3%以上上回っている。
興味深いことに、コントラスト学習に最も貢献するサブセットは、教師付き学習に最も貢献するサブセットである。
コードはhttps://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learningで公開されている。
関連論文リスト
- Making Self-supervised Learning Robust to Spurious Correlation via
Learning-speed Aware Sampling [26.444935219428036]
自己教師付き学習(SSL)は、ラベルのないデータからリッチな表現を学ぶための強力なテクニックとして登場した。
現実の環境では、いくつかの属性(例えば、人種、性別、年齢)と下流タスクのラベルの間に急激な相関関係がしばしば存在する。
学習速度に逆相関する確率でトレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-27T22:52:45Z) - On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning [15.276356824489431]
我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。
我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。
提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T04:32:10Z) - Towards Democratizing Joint-Embedding Self-Supervised Learning [17.59181163979478]
一つのイメージパッチを負の例として用いながら,SimCLRに有用な表現を学習させることが可能であることを示す。
JE-SSLを民主化するために、SSL用に最適化されたPyTorchライブラリを導入します。
論文 参考訳(メタデータ) (2023-03-03T14:55:44Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - Towards Realistic Semi-Supervised Learning [73.59557447798134]
オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しい手法を提案する。
我々のアプローチは、既存の最先端の7つのデータセットよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-05T19:04:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Self-Supervised Learning: Small is Beautiful [30.809693803413445]
小解像度、小アーキテクチャ、小データという3つの部分を含むスケールダウン自己監督学習(S3L)を提案します。
さまざまなデータセットセットにおいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減しながら、一貫して高い精度を達成する。
論文 参考訳(メタデータ) (2021-03-25T01:48:52Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。