論文の概要: How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm?
- arxiv url: http://arxiv.org/abs/2210.08188v1
- Date: Sat, 15 Oct 2022 04:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:59:07.173270
- Title: How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm?
- Title(参考訳): 擬似ラベルは半スーパービジョンギブズアルゴリズムの一般化誤差にどのように影響するか?
- Authors: Haiyun He, Gholamali Aminian, Yuheng Bu, Miguel Rodrigues, Vincent Y.
F. Tan
- Abstract要約: 本稿では,Gibbsアルゴリズムによる擬似ラベル付き半教師付き学習(SSL)における予測一般化誤差(ゲンエラー)を正確に評価する。
この結果から,擬似ラベル付きSSLの一般化性能は,出力仮説と入力学習データ間の情報だけでなく,擬似ラベル付きサンプルと擬似ラベル付きサンプル間で共有される情報によっても影響されることが示唆された。
- 参考スコア(独自算出の注目度): 73.80001705134147
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper provides an exact characterization of the expected generalization
error (gen-error) for semi-supervised learning (SSL) with pseudo-labeling via
the Gibbs algorithm. This characterization is expressed in terms of the
symmetrized KL information between the output hypothesis, the pseudo-labeled
dataset, and the labeled dataset. It can be applied to obtain distribution-free
upper and lower bounds on the gen-error. Our findings offer new insights that
the generalization performance of SSL with pseudo-labeling is affected not only
by the information between the output hypothesis and input training data but
also by the information {\em shared} between the {\em labeled} and {\em
pseudo-labeled} data samples. To deepen our understanding, we further explore
two examples -- mean estimation and logistic regression. In particular, we
analyze how the ratio of the number of unlabeled to labeled data $\lambda$
affects the gen-error under both scenarios. As $\lambda$ increases, the
gen-error for mean estimation decreases and then saturates at a value larger
than when all the samples are labeled, and the gap can be quantified {\em
exactly} with our analysis, and is dependent on the \emph{cross-covariance}
between the labeled and pseudo-labeled data sample. In logistic regression, the
gen-error and the variance component of the excess risk also decrease as
$\lambda$ increases.
- Abstract(参考訳): 本稿では,Gibbsアルゴリズムによる擬似ラベル付き半教師付き学習(SSL)における予測一般化誤差(ゲンエラー)を正確に評価する。
この特徴は、出力仮説、擬ラベル付きデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
これは、ゲンエラーの分布自由な上界と下界を得るために適用することができる。
その結果、擬似ラベル付きsslの一般化性能は、出力仮説と入力トレーニングデータ間の情報だけでなく、"em labeled}と"em pseudo-labeled"データサンプル間の情報「em shared」によっても影響を受けるという新たな知見が得られた。
理解を深めるために、平均推定とロジスティック回帰という2つの例をさらに探ります。
特に、ラベルなしデータとラベル付きデータの比率$\lambda$がどちらのシナリオでもgen-errorにどのように影響するかを分析する。
\lambda$が増加すると、平均推定のためのgen-errorは減少し、すべてのサンプルがラベル付けされたときよりも大きな値で飽和し、このギャップは解析によって定量化され、ラベル付きデータと擬似ラベル付きデータサンプルの間の \emph{cross-covariance} に依存する。
ロジスティック回帰では、元エラーと過剰リスクの分散成分も$\lambda$が増加するにつれて減少する。
関連論文リスト
- Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Pseudo-Labeling for Kernel Ridge Regression under Covariate Shift [1.3597551064547502]
対象分布に対する平均2乗誤差が小さい回帰関数を,ラベルなしデータと異なる特徴分布を持つラベル付きデータに基づいて学習する。
ラベル付きデータを2つのサブセットに分割し、カーネルリッジの回帰処理を行い、候補モデルの集合と計算モデルを得る。
モデル選択に擬似ラベルを用いることで性能を著しく損なうことはないことが判明した。
論文 参考訳(メタデータ) (2023-02-20T18:46:12Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Semi-supervised Contrastive Outlier removal for Pseudo Expectation
Maximization (SCOPE) [2.33877878310217]
Pseudo expectation Maximization (SCOPE) のための半教師付きコントラスト外乱除去法を用いて, 共起誤差を抑制する新しい手法を提案する。
その結果,SCOPEはベースライン上での半教師付き分類精度を大幅に向上し,さらに整合正則化と組み合わせた場合,250と4000のラベル付きサンプルを用いた半教師付きCIFAR-10分類タスクにおいて最も高い精度が得られた。
論文 参考訳(メタデータ) (2022-06-28T19:32:50Z) - Optimizing Diffusion Rate and Label Reliability in a Graph-Based
Semi-supervised Classifier [2.4366811507669124]
Local and Global Consistency (LGC)アルゴリズムは、グラフベースの半教師付き半教師付き(GSSL)分類器の1つである。
ラベル付きインスタンスの自己影響を取り除くことは、どのように有用か、そして、それがアウト・ワン・アウトエラーにどのように関係するかについて議論する。
本研究では,ラベルの信頼性と拡散率を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T16:58:52Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Self-training Avoids Using Spurious Features Under Domain Shift [54.794607791641745]
教師なし領域適応においては、条件付きエントロピー最小化と擬似ラベル処理は、既存の理論で解析されたものよりもドメインシフトがはるかに大きい場合であっても行われる。
ドメインシフトが大きくなる可能性のある特定の設定を特定・分析するが、特定のスパイラルな特徴はソースドメインのラベルと相関するが、ターゲットの独立なラベルである。
論文 参考訳(メタデータ) (2020-06-17T17:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。