論文の概要: Semi-supervised learning objectives as log-likelihoods in a generative
model of data curation
- arxiv url: http://arxiv.org/abs/2008.05913v2
- Date: Fri, 8 Oct 2021 06:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:37:12.445306
- Title: Semi-supervised learning objectives as log-likelihoods in a generative
model of data curation
- Title(参考訳): データキュレーション生成モデルにおけるログ類似としての半教師付き学習目標
- Authors: Stoil Ganev, Laurence Aitchison
- Abstract要約: データキュレーションの生成モデルにおいて、SSLの目的をログライクな形式として定式化する。
おもちゃのデータにベイジアンSSLの証明を与える。
- 参考スコア(独自算出の注目度): 32.45282187405337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We currently do not have an understanding of semi-supervised learning (SSL)
objectives such as pseudo-labelling and entropy minimization as
log-likelihoods, which precludes the development of e.g. Bayesian SSL. Here, we
note that benchmark image datasets such as CIFAR-10 are carefully curated, and
we formulate SSL objectives as a log-likelihood in a generative model of data
curation that was initially developed to explain the cold-posterior effect
(Aitchison 2020). SSL methods, from entropy minimization and pseudo-labelling,
to state-of-the-art techniques similar to FixMatch can be understood as
lower-bounds on our principled log-likelihood. We are thus able to give a
proof-of-principle for Bayesian SSL on toy data. Finally, our theory suggests
that SSL is effective in part due to the statistical patterns induced by data
curation. This provides an explanation of past results which show SSL performs
better on clean datasets without any "out of distribution" examples. Confirming
these results we find that SSL gave much larger performance improvements on
curated than on uncurated data, using matched curated and uncurated datasets
based on Galaxy Zoo 2.
- Abstract(参考訳): 現在、擬似ラベリングやエントロピーの最小化のような半教師付き学習(SSL)の目的について、例えばベイジアンSSLの開発を妨げている理解が得られていない。
ここでは、CIFAR-10などのベンチマーク画像データセットを慎重にキュレートし、冷間後効果を説明するために開発されたデータキュレーションの生成モデルにおいて、SSLの目的をログライクなモデルとして定式化する(Aitchison 2020)。
SSLメソッドは,エントロピーの最小化や擬似ラベリングから,FixMatchに類似した最先端技術に至るまで,当社の原則的ログライクな手法の下位境界として理解することができる。
これにより、おもちゃのデータにベイジアンSSLの証明を与えることができる。
最後に,データキュレーションによって引き起こされる統計パターンによってSSLが有効であることが示唆された。
これは、SSLが"配布外"の例を使わずに、クリーンなデータセットでより良いパフォーマンスを示す過去の結果を説明する。
これらの結果を確認すると、Galaxy Zoo 2.0をベースにした、一致したキュレートされたデータセットと未処理のデータセットを使用して、SSLが未処理のデータよりもずっと大きなパフォーマンス改善を実現したことが分かる。
関連論文リスト
- Semi-Supervised Sparse Gaussian Classification: Provable Benefits of Unlabeled Data [6.812609988733991]
高次元ガウス分類のためのSSLについて検討する。
正確な特徴選択のための情報理論の下限を解析する。
理論的解析を補完するシミュレーションを提案する。
論文 参考訳(メタデータ) (2024-09-05T08:21:05Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Reinforcement Learning-Guided Semi-Supervised Learning [20.599506122857328]
本稿では,SSLを片腕バンディット問題として定式化する新しい強化学習ガイド型SSL手法 RLGSSL を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-02T21:52:24Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Improving Open-Set Semi-Supervised Learning with Self-Supervision [13.944469874692459]
オープンセット半教師あり学習(OSSL)は、半教師あり学習における実践的なシナリオを具現化する。
我々は,自己スーパービジョンを通じて,ラベルのないすべてのデータから学習を容易にするOSSLフレームワークを提案する。
提案手法は, 評価されたベンチマーク問題の多くに対して, 最先端の結果をもたらす。
論文 参考訳(メタデータ) (2023-01-24T16:46:37Z) - Semi-Leak: Membership Inference Attacks Against Semi-supervised Learning [42.089020844936805]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を活用して機械学習(ML)モデルをトレーニングする。
SSLでトレーニングされたMLモデルに対して,データ拡張に基づく最初のメンバシップ推論攻撃を提案する。
評価の結果,提案攻撃は既存のメンバシップ推論攻撃よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2022-07-25T21:17:24Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。