論文の概要: Approximate Bayes Optimal Pseudo-Label Selection
- arxiv url: http://arxiv.org/abs/2302.08883v2
- Date: Mon, 20 Feb 2023 08:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 12:15:48.134073
- Title: Approximate Bayes Optimal Pseudo-Label Selection
- Title(参考訳): 近似ベイズ最適擬似ラベル選択
- Authors: Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler,
Thomas Augustin
- Abstract要約: 自己学習による半教師あり学習は擬似ラベル選択(PLS)に大きく依存する
したがって、初期オーバーフィッティングは、過信だが誤予測のあるインスタンスを選択することで最終モデルに伝播する可能性がある。
本稿では,この問題の緩和を目的としたBPLSについて述べる。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning by self-training heavily relies on pseudo-label
selection (PLS). The selection often depends on the initial model fit on
labeled data. Early overfitting might thus be propagated to the final model by
selecting instances with overconfident but erroneous predictions, often
referred to as confirmation bias. This paper introduces BPLS, a Bayesian
framework for PLS that aims to mitigate this issue. At its core lies a
criterion for selecting instances to label: an analytical approximation of the
posterior predictive of pseudo-samples. We derive this selection criterion by
proving Bayes optimality of the posterior predictive of pseudo-samples. We
further overcome computational hurdles by approximating the criterion
analytically. Its relation to the marginal likelihood allows us to come up with
an approximation based on Laplace's method and the Gaussian integral. We
empirically assess BPLS for parametric generalized linear and non-parametric
generalized additive models on simulated and real-world data. When faced with
high-dimensional data prone to overfitting, BPLS outperforms traditional PLS
methods.
- Abstract(参考訳): 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。
選択はしばしばラベル付きデータに適合する初期モデルに依存する。
したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。
本稿では,この問題の緩和を目的としたBPLSについて述べる。
その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。
この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。
さらに、評価基準を解析的に近似することで計算ハードルを克服する。
その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。
シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。
高次元データに直面すると、BPLSは従来のPLS法よりも優れている。
関連論文リスト
- Predictive variational inference: Learn the predictively optimal posterior distribution [1.7648680700685022]
バニラ変量推論はベイズ後部分布に最適な近似を求めるが、正確なベイズ後部分布でさえモデル的不特定の下では意味がないことが多い。
本稿では,最適後続密度から標本を探索する一般推論フレームワークである予測変分推論(PVI)を提案する。
この枠組みは、可能性エクササイズモデルと可能性フリーモデルの両方に適用できる。
論文 参考訳(メタデータ) (2024-10-18T19:44:57Z) - Fusion of Gaussian Processes Predictions with Monte Carlo Sampling [61.31380086717422]
科学と工学において、私たちはしばしば興味のある変数の正確な予測のために設計されたモデルで作業します。
これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。
論文 参考訳(メタデータ) (2024-03-03T04:21:21Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Pseudo Label Selection is a Decision Problem [0.0]
Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
論文 参考訳(メタデータ) (2023-09-25T07:48:02Z) - Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Maximum sampled conditional likelihood for informative subsampling [4.708378681950648]
サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
論文 参考訳(メタデータ) (2020-11-11T16:01:17Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。