Fugu-MT 論文翻訳(概要): Data-Efficient Contrastive Self-supervised Learning: Most Beneficial Examples for Supervised Learning Contribute the Least

論文の概要: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial Examples for Supervised Learning Contribute the Least

arxiv url: http://arxiv.org/abs/2302.09195v5
Date: Tue, 12 Mar 2024 19:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 19:26:39.147961
Title: Data-Efficient Contrastive Self-supervised Learning: Most Beneficial Examples for Supervised Learning Contribute the Least
Title（参考訳）: データ効率のよいコントラスト型自己教師型学習:最も有効である学びの指導的貢献例
Authors: Siddharth Joshi and Baharan Mirzasoleiman
Abstract要約: 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。対照的なSSLに最も貢献する例は、他の例と最もよく似た拡張であることを示す。
参考スコア（独自算出の注目度）: 14.516008359896421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this problem for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of contrastive learning on such subsets. Through extensive experiments, we show that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10 and TinyImageNet, without affecting downstream task performance. In general, subsets selected by our method outperform random subsets by over 3% across these datasets. Interestingly, we also discover the subsets that contribute the most to contrastive learning are those that contribute the least to supervised learning. Code available at https://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learning.
Abstract（参考訳）: 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。これにより、必要なデータ量を減らすことで、効率的なSSLが可能になる。それでもSSLの例の価値を定量化することは、未解決の問題である。本研究では,SSLに最も貢献する例が,予想される他の例と最もよく似た拡張であることを示すことによって,この問題に初めて対処する。このような部分集合に対するコントラスト学習の一般化性能の厳密な保証を提供する。 CIFAR100から20%、STL10やTinyImageNetから40%のサンプルを安全に取り除き、ダウンストリームタスクのパフォーマンスに影響を与えないことを示す。一般に,本手法で選択したサブセットは,これらのデータセットに対して,ランダムなサブセットを3%以上上回っている。興味深いことに、コントラスト学習に最も貢献するサブセットは、教師付き学習に最も貢献するサブセットである。コードはhttps://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learningで公開されている。

関連論文リスト

Views Can Be Deceiving: Improved SSL Through Feature Space Augmentation [27.609748213840138]
本研究では,視覚表現学習における自己監督学習(SSL)に対する刺激的特徴の影響について検討する。 SSLの一般的な拡張は、画像空間における望ましくない不変性を引き起こす可能性があることを示す。そこで,本研究では,pruningによりエンコーダの後半層を正規化することにより,事前学習中にこれらの表現からスプリアス情報を除去するLateTVGを提案する。
論文参考訳（メタデータ） (2024-05-28T18:42:13Z)
On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文参考訳（メタデータ） (2024-03-20T17:59:58Z)
On the Effectiveness of Out-of-Distribution Data in Self-Supervised Long-Tail Learning [15.276356824489431]
我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
論文参考訳（メタデータ） (2023-06-08T04:32:10Z)
Towards Democratizing Joint-Embedding Self-Supervised Learning [17.59181163979478]
一つのイメージパッチを負の例として用いながら,SimCLRに有用な表現を学習させることが可能であることを示す。 JE-SSLを民主化するために、SSL用に最適化されたPyTorchライブラリを導入します。
論文参考訳（メタデータ） (2023-03-03T14:55:44Z)
Towards Realistic Semi-Supervised Learning [73.59557447798134]
オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しい手法を提案する。我々のアプローチは、既存の最先端の7つのデータセットよりも大幅に優れています。
論文参考訳（メタデータ） (2022-07-05T19:04:43Z)
Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文参考訳（メタデータ） (2022-05-02T16:09:17Z)
Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文参考訳（メタデータ） (2021-10-11T06:29:56Z)
Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文参考訳（メタデータ） (2021-08-12T09:14:44Z)
Rethinking Self-Supervised Learning: Small is Beautiful [30.809693803413445]
小解像度、小アーキテクチャ、小データという3つの部分を含むスケールダウン自己監督学習(S3L)を提案します。さまざまなデータセットセットにおいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減しながら、一貫して高い精度を達成する。
論文参考訳（メタデータ） (2021-03-25T01:48:52Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。