論文の概要: Self-supervised Learning is More Robust to Dataset Imbalance
- arxiv url: http://arxiv.org/abs/2110.05025v1
- Date: Mon, 11 Oct 2021 06:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 06:11:59.761523
- Title: Self-supervised Learning is More Robust to Dataset Imbalance
- Title(参考訳): 自己教師付き学習はデータセットの不均衡より堅牢である
- Authors: Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma
- Abstract要約: データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
- 参考スコア(独自算出の注目度): 65.84339596595383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) is a scalable way to learn general visual
representations since it learns without labels. However, large-scale unlabeled
datasets in the wild often have long-tailed label distributions, where we know
little about the behavior of SSL. In this work, we systematically investigate
self-supervised learning under dataset imbalance. First, we find out via
extensive experiments that off-the-shelf self-supervised representations are
already more robust to class imbalance than supervised representations. The
performance gap between balanced and imbalanced pre-training with SSL is
significantly smaller than the gap with supervised learning, across sample
sizes, for both in-domain and, especially, out-of-domain evaluation. Second,
towards understanding the robustness of SSL, we hypothesize that SSL learns
richer features from frequent data: it may learn
label-irrelevant-but-transferable features that help classify the rare classes
and downstream tasks. In contrast, supervised learning has no incentive to
learn features irrelevant to the labels from frequent examples. We validate
this hypothesis with semi-synthetic experiments and theoretical analyses on a
simplified setting. Third, inspired by the theoretical insights, we devise a
re-weighted regularization technique that consistently improves the SSL
representation quality on imbalanced datasets with several evaluation criteria,
closing the small gap between balanced and imbalanced datasets with the same
number of examples.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなしで学習するため、一般的な視覚表現を学習するためのスケーラブルな方法である。
しかし、大規模でラベルなしのデータセットは、sslの振る舞いについてほとんど知らない長いラベルのディストリビューションを持つことが多い。
本研究では,データセットの不均衡下での自己教師付き学習を体系的に検討する。
まず,市販の自己教師付き表現が教師付き表現よりもクラス不均衡に対してすでに強固であることを示す実験を行った。
SSLとのバランスの取れたトレーニングと非バランスなトレーニングの間のパフォーマンスギャップは、ドメイン内および特にドメイン外の評価において、教師付き学習のギャップよりも大幅に小さい。
次に、SSLの堅牢性を理解するために、SSLは頻繁なデータからよりリッチな機能を学習する、という仮説を立てます。
対照的に、教師付き学習は、頻繁に行われる例からラベルに関係のない特徴を学習するインセンティブを持たない。
この仮説を半合成実験と簡単な設定で理論的解析によって検証する。
第三に、理論的な洞察にインスパイアされた再重み付き正規化手法を考案し、複数の評価基準でSSL表現品質を一貫して改善し、バランスの取れたデータセットとバランスの取れていないデータセットの小さなギャップを同じ数の例で埋める。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Reinforcement Learning-Guided Semi-Supervised Learning [20.599506122857328]
本稿では,SSLを片腕バンディット問題として定式化する新しい強化学習ガイド型SSL手法 RLGSSL を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-02T21:52:24Z) - Making Self-supervised Learning Robust to Spurious Correlation via
Learning-speed Aware Sampling [26.444935219428036]
自己教師付き学習(SSL)は、ラベルのないデータからリッチな表現を学ぶための強力なテクニックとして登場した。
現実の環境では、いくつかの属性(例えば、人種、性別、年齢)と下流タスクのラベルの間に急激な相関関係がしばしば存在する。
学習速度に逆相関する確率でトレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-27T22:52:45Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - Class-Imbalanced Semi-Supervised Learning [33.94685366079589]
Semi-Supervised Learning (SSL)はラベル付けの難しさを克服し、ラベルなしデータを完全に活用することで大きな成功を収めている。
本稿では,クラス不均衡データを用いた半教師あり学習(CISSL)の課題を紹介する。
本手法はCISSL環境における従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-02-17T07:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。