論文の概要: Can semi-supervised learning use all the data effectively? A lower bound
perspective
- arxiv url: http://arxiv.org/abs/2311.18557v1
- Date: Thu, 30 Nov 2023 13:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:33:22.548062
- Title: Can semi-supervised learning use all the data effectively? A lower bound
perspective
- Title(参考訳): 半教師付き学習はすべてのデータを効果的に使用できるか?
下界の視点
- Authors: Alexandru \c{T}ifrea, Gizem Y\"uce, Amartya Sanyal, Fanny Yang
- Abstract要約: 半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
- 参考スコア(独自算出の注目度): 58.71657561857055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works have shown that semi-supervised learning algorithms can leverage
unlabeled data to improve over the labeled sample complexity of supervised
learning (SL) algorithms. However, existing theoretical analyses focus on
regimes where the unlabeled data is sufficient to learn a good decision
boundary using unsupervised learning (UL) alone. This begs the question: Can
SSL algorithms simultaneously improve upon both UL and SL? To this end, we
derive a tight lower bound for 2-Gaussian mixture models that explicitly
depends on the labeled and the unlabeled dataset size as well as the
signal-to-noise ratio of the mixture distribution. Surprisingly, our result
implies that no SSL algorithm can improve upon the minimax-optimal statistical
error rates of SL or UL algorithms for these distributions. Nevertheless, we
show empirically on real-world data that SSL algorithms can still outperform UL
and SL methods. Therefore, our work suggests that, while proving performance
gains for SSL algorithms is possible, it requires careful tracking of
constants.
- Abstract(参考訳): 先行研究では、半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習(sl)アルゴリズムのラベル付きサンプル複雑性を改善できることが示されている。
しかし、既存の理論的分析は、教師なし学習(UL)だけでよい判断境界を学ぶのに、ラベルのないデータが十分である体制に焦点を当てている。
SSLアルゴリズムは、ULとSLの両方で同時に改善できますか?
この目的のために,ラベル付きおよびラベルなしデータセットサイズと混合分布の信号-雑音比に依存する2-ガウス混合モデルに対して,厳密な下界を導出する。
意外なことに、これらの分布に対するSLアルゴリズムやULアルゴリズムの最小最適統計誤差率ではSSLアルゴリズムは改善できない。
それでも、SSLアルゴリズムがUL法やSL法より優れている実世界のデータを実証的に示す。
したがって、SSLアルゴリズムの性能向上を実証することは可能であるが、定数を注意深く追跡する必要がある。
関連論文リスト
- Active Semi-Supervised Learning by Exploring Per-Sample Uncertainty and
Consistency [30.94964727745347]
そこで我々は,ASSL(Active Semi-supervised Learning)と呼ばれる手法を提案し,低コストでモデルの精度を向上させる。
ASSLには、ラベルなしデータの使用により、アクティブラーニング(AL)よりもダイナミックなモデル更新が含まれている。
ASSLは同じ性能を保ちながら、半教師あり学習(SSL)の約5.3倍の計算効率を達成した。
論文 参考訳(メタデータ) (2023-03-15T22:58:23Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Unlabeled Data Help: Minimax Analysis and Adversarial Robustness [21.79888306754263]
自己教師付き学習(SSL)アプローチは、追加のラベルのないデータで学習アルゴリズムを補完する大きな可能性を実証することに成功した。
既存のSSLアルゴリズムがラベル付きデータとラベルなしデータの情報を十分に活用できるかどうかはまだ不明である。
本稿では,いくつかの統計モデルに基づく2020年の予測を引用し,再構成に基づくSSLアルゴリズムに対する肯定的な回答を与える。
論文 参考訳(メタデータ) (2022-02-14T19:24:43Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Learning [9.155410614399159]
効率的で堅牢な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。
我々は,RETRIEVEが従来のSSL設定で約3倍の高速化を実現し,最先端(SOTA)の堅牢なSSLアルゴリズムと比較して5倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-14T21:18:47Z) - Semi-supervised learning objectives as log-likelihoods in a generative
model of data curation [32.45282187405337]
データキュレーションの生成モデルにおいて、SSLの目的をログライクな形式として定式化する。
おもちゃのデータにベイジアンSSLの証明を与える。
論文 参考訳(メタデータ) (2020-08-13T13:50:27Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。