論文の概要: Statistical and Algorithmic Insights for Semi-supervised Learning with
Self-training
- arxiv url: http://arxiv.org/abs/2006.11006v1
- Date: Fri, 19 Jun 2020 08:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:58:44.207640
- Title: Statistical and Algorithmic Insights for Semi-supervised Learning with
Self-training
- Title(参考訳): 自己学習による半教師あり学習の統計的・アルゴリズム的考察
- Authors: Samet Oymak, Talha Cihad Gulcu
- Abstract要約: 自己学習は、半教師あり学習における古典的なアプローチである。
自己学習の繰り返しは、たとえ最適でない固定点に留まったとしても、モデル精度を良好に向上することを示す。
次に、自己学習に基づく半スーパービジョンと、異種データによる学習のより一般的な問題との関連性を確立する。
- 参考スコア(独自算出の注目度): 30.866440916522826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training is a classical approach in semi-supervised learning which is
successfully applied to a variety of machine learning problems. Self-training
algorithm generates pseudo-labels for the unlabeled examples and progressively
refines these pseudo-labels which hopefully coincides with the actual labels.
This work provides theoretical insights into self-training algorithm with a
focus on linear classifiers. We first investigate Gaussian mixture models and
provide a sharp non-asymptotic finite-sample characterization of the
self-training iterations. Our analysis reveals the provable benefits of
rejecting samples with low confidence and demonstrates that self-training
iterations gracefully improve the model accuracy even if they do get stuck in
sub-optimal fixed points. We then demonstrate that regularization and class
margin (i.e. separation) is provably important for the success and lack of
regularization may prevent self-training from identifying the core features in
the data. Finally, we discuss statistical aspects of empirical risk
minimization with self-training for general distributions. We show how a purely
unsupervised notion of generalization based on self-training based clustering
can be formalized based on cluster margin. We then establish a connection
between self-training based semi-supervision and the more general problem of
learning with heterogenous data and weak supervision.
- Abstract(参考訳): 自己学習は、様々な機械学習問題にうまく適用できる半教師付き学習の古典的なアプローチである。
自己学習アルゴリズムは、ラベルのない例の擬似ラベルを生成し、これらの擬似ラベルを段階的に洗練する。
この研究は、線形分類器に着目した自己学習アルゴリズムに関する理論的洞察を提供する。
まず, ガウス混合モデルを調査し, 自己学習反復の鋭い非漸近的有限サンプルキャラクタリゼーションを提供する。
本分析では, 自己学習の繰り返しが, 最適でない固定点に留まった場合でも, モデル精度を良好に向上することを示す。
そして、正規化とクラスマージン(すなわち分離)は成功のために確実に重要であり、正規化の欠如は、データのコア機能を特定する自己訓練を妨げる可能性があることを実証する。
最後に、一般分布に対する自己学習による経験的リスク最小化の統計的側面について論じる。
本稿では,自己学習に基づくクラスタリングに基づく一般化の概念をクラスタマージンに基づいて定式化する方法を示す。
次に,自己学習に基づくセミスーパービジョンと,異種データによる学習と監督の弱さの関連性を確立する。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Self-Training: A Survey [5.772546394254112]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Contrastive Regularization for Semi-Supervised Learning [46.020125061295886]
そこで本稿では, ラベルのないデータの特徴量により, 整合正則化の効率性と精度を両立させるために, 対照的な正則化を提案する。
また,提案手法は,ラベルなしデータに分布しないサンプルを含むオープンセット半教師付き学習において,頑健な性能を示す。
論文 参考訳(メタデータ) (2022-01-17T07:20:11Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Theoretical Analysis of Self-Training with Deep Networks on Unlabeled
Data [48.4779912667317]
自己学習アルゴリズムは、ニューラルネットワークを使ってラベルのないデータで学ぶことに成功している。
この研究は、半教師なし学習、教師なしドメイン適応、教師なし学習のための深層ネットワークによる自己学習の統一的理論的解析を提供する。
論文 参考訳(メタデータ) (2020-10-07T19:43:55Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。