論文の概要: Self-supervised Learning is More Robust to Dataset Imbalance
- arxiv url: http://arxiv.org/abs/2110.05025v1
- Date: Mon, 11 Oct 2021 06:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 06:11:59.761523
- Title: Self-supervised Learning is More Robust to Dataset Imbalance
- Title(参考訳): 自己教師付き学習はデータセットの不均衡より堅牢である
- Authors: Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma
- Abstract要約: データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
- 参考スコア(独自算出の注目度): 65.84339596595383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) is a scalable way to learn general visual
representations since it learns without labels. However, large-scale unlabeled
datasets in the wild often have long-tailed label distributions, where we know
little about the behavior of SSL. In this work, we systematically investigate
self-supervised learning under dataset imbalance. First, we find out via
extensive experiments that off-the-shelf self-supervised representations are
already more robust to class imbalance than supervised representations. The
performance gap between balanced and imbalanced pre-training with SSL is
significantly smaller than the gap with supervised learning, across sample
sizes, for both in-domain and, especially, out-of-domain evaluation. Second,
towards understanding the robustness of SSL, we hypothesize that SSL learns
richer features from frequent data: it may learn
label-irrelevant-but-transferable features that help classify the rare classes
and downstream tasks. In contrast, supervised learning has no incentive to
learn features irrelevant to the labels from frequent examples. We validate
this hypothesis with semi-synthetic experiments and theoretical analyses on a
simplified setting. Third, inspired by the theoretical insights, we devise a
re-weighted regularization technique that consistently improves the SSL
representation quality on imbalanced datasets with several evaluation criteria,
closing the small gap between balanced and imbalanced datasets with the same
number of examples.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなしで学習するため、一般的な視覚表現を学習するためのスケーラブルな方法である。
しかし、大規模でラベルなしのデータセットは、sslの振る舞いについてほとんど知らない長いラベルのディストリビューションを持つことが多い。
本研究では,データセットの不均衡下での自己教師付き学習を体系的に検討する。
まず,市販の自己教師付き表現が教師付き表現よりもクラス不均衡に対してすでに強固であることを示す実験を行った。
SSLとのバランスの取れたトレーニングと非バランスなトレーニングの間のパフォーマンスギャップは、ドメイン内および特にドメイン外の評価において、教師付き学習のギャップよりも大幅に小さい。
次に、SSLの堅牢性を理解するために、SSLは頻繁なデータからよりリッチな機能を学習する、という仮説を立てます。
対照的に、教師付き学習は、頻繁に行われる例からラベルに関係のない特徴を学習するインセンティブを持たない。
この仮説を半合成実験と簡単な設定で理論的解析によって検証する。
第三に、理論的な洞察にインスパイアされた再重み付き正規化手法を考案し、複数の評価基準でSSL表現品質を一貫して改善し、バランスの取れたデータセットとバランスの取れていないデータセットの小さなギャップを同じ数の例で埋める。
関連論文リスト
- Self-Supervised PPG Representation Learning Shows High Inter-Subject
Variability [3.8036939971290007]
本稿では,信号再構成を前提とした自己教師付き学習(SSL)手法を提案し,汎用的なPSG表現を学習する。
結果として、SSLを使用するラベルデータ設定(クラス毎に10のサンプル)が非常に限定されていることが分かる。
SSLは、ラベルスカースレジームにおけるPSGデータに機械学習モデルが広く使われるための道を開くかもしれない。
論文 参考訳(メタデータ) (2022-12-07T19:02:45Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - A Study of the Generalizability of Self-Supervised Representations [0.0]
近年の自己教師付き学習(SSL)により、ラベルのないデータから一般化可能な視覚表現を学習できるようになった。
本稿では,SSLモデルとSLモデルの一般化可能性について,その予測精度および予測信頼度を用いて検討する。
SSL表現はSL表現と比較して一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-09-19T15:57:37Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - Class-Imbalanced Semi-Supervised Learning [33.94685366079589]
Semi-Supervised Learning (SSL)はラベル付けの難しさを克服し、ラベルなしデータを完全に活用することで大きな成功を収めている。
本稿では,クラス不均衡データを用いた半教師あり学習(CISSL)の課題を紹介する。
本手法はCISSL環境における従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-02-17T07:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。