論文の概要: Why pseudo label based algorithm is effective? --from the perspective of
pseudo labeled data
- arxiv url: http://arxiv.org/abs/2211.10039v1
- Date: Fri, 18 Nov 2022 05:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:06:39.143489
- Title: Why pseudo label based algorithm is effective? --from the perspective of
pseudo labeled data
- Title(参考訳): なぜ擬似ラベルに基づくアルゴリズムが有効か?
--擬似ラベルデータの観点から
- Authors: Zeping Min, Cheng Tai
- Abstract要約: 本稿では,擬似ラベルに基づく半教師付き学習がなぜ有効なのかを理論的に分析する。
解析の結果、まず、ラベルなしデータの量が無限大になる傾向にある場合、擬似ラベルに基づく半教師付き学習アルゴリズムは、通常訓練によって得られるモデルと同じ一般化誤差上限を持つモデルを得ることができることがわかった。
さらに重要なことは、ラベル付きデータの量が十分に大きい場合、擬似ラベルに基づく半教師付き学習アルゴリズムによって得られたモデルの一般化誤差上限が線形収束率で最適上限に収束できることである。
- 参考スコア(独自算出の注目度): 1.8402019107354282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pseudo label based semi-supervised learning has achieved great
success in many fields. The core idea of the pseudo label based semi-supervised
learning algorithm is to use the model trained on the labeled data to generate
pseudo labels on the unlabeled data, and then train a model to fit the
previously generated pseudo labels. We give a theory analysis for why pseudo
label based semi-supervised learning is effective in this paper. We mainly
compare the generalization error of the model trained under two settings: (1)
There are N labeled data. (2) There are N unlabeled data and a suitable initial
model. Our analysis shows that, firstly, when the amount of unlabeled data
tends to infinity, the pseudo label based semi-supervised learning algorithm
can obtain model which have the same generalization error upper bound as model
obtained by normally training in the condition of the amount of labeled data
tends to infinity. More importantly, we prove that when the amount of unlabeled
data is large enough, the generalization error upper bound of the model
obtained by pseudo label based semi-supervised learning algorithm can converge
to the optimal upper bound with linear convergence rate. We also give the lower
bound on sampling complexity to achieve linear convergence rate. Our analysis
contributes to understanding the empirical successes of pseudo label-based
semi-supervised learning.
- Abstract(参考訳): 近年,擬似ラベルに基づく半教師付き学習が多くの分野で大きな成功を収めている。
擬似ラベルに基づく半教師付き学習アルゴリズムの基本的な考え方は、ラベル付きデータで訓練されたモデルを使用してラベル付きデータ上で擬似ラベルを生成し、以前に生成された擬似ラベルに適合するようにモデルを訓練することである。
本稿では,擬似ラベルに基づく半教師付き学習がなぜ有効なのかを理論的に分析する。
主に2つの設定で訓練されたモデルの一般化誤差を比較し,(1)ラベル付きデータが存在する。
(2)n個のラベルのないデータと適切な初期モデルがある。
まず,ラベルなしデータの量が無限大になりがちである場合,擬似ラベル付き半教師付き学習アルゴリズムは,ラベル付きデータの量が無限大になりがちである条件下で正規にトレーニングして得られるモデルと同じ一般化誤差上限を持つモデルを得ることができることを示す。
さらに重要なことは、ラベル付きデータの量が十分に大きい場合、擬似ラベルに基づく半教師付き学習アルゴリズムによって得られたモデルの一般化誤差上限が線形収束率で最適上限に収束できることである。
また,線形収束率を達成するために,サンプリング複雑性の上限を低くする。
本分析は,擬似ラベルに基づく半教師あり学習における経験的成功の理解に寄与する。
関連論文リスト
- Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular
Data [0.0]
我々は、勾配向上決定木を含むあらゆる種類のアルゴリズムに適用可能な自己学習を再考する。
疑似ラベルの可能性に基づいて信頼度を正則化する新しい擬似ラベル手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T18:12:56Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced
Semi-Supervised Learning [80.05441565830726]
本稿では,疑似ラベルの重み付けがモデル性能に悪影響を及ぼすような,不均衡な半教師付き学習に対処する。
本稿では,この観測の動機となるバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。
不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-10T11:58:25Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。