論文の概要: Pseudo Label Selection is a Decision Problem
- arxiv url: http://arxiv.org/abs/2309.13926v2
- Date: Tue, 26 Sep 2023 07:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 10:31:32.617867
- Title: Pseudo Label Selection is a Decision Problem
- Title(参考訳): 擬似ラベル選択は決定問題である
- Authors: Julian Rodemann
- Abstract要約: Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pseudo-Labeling is a simple and effective approach to semi-supervised
learning. It requires criteria that guide the selection of pseudo-labeled data.
The latter have been shown to crucially affect pseudo-labeling's generalization
performance. Several such criteria exist and were proven to work reasonably
well in practice. However, their performance often depends on the initial model
fit on labeled data. Early overfitting can be propagated to the final model by
choosing instances with overconfident but wrong predictions, often called
confirmation bias. In two recent works, we demonstrate that pseudo-label
selection (PLS) can be naturally embedded into decision theory. This paves the
way for BPLS, a Bayesian framework for PLS that mitigates the issue of
confirmation bias. At its heart is a novel selection criterion: an analytical
approximation of the posterior predictive of pseudo-samples and labeled data.
We derive this selection criterion by proving Bayes-optimality of this "pseudo
posterior predictive". We empirically assess BPLS for generalized linear,
non-parametric generalized additive models and Bayesian neural networks on
simulated and real-world data. When faced with data prone to overfitting and
thus a high chance of confirmation bias, BPLS outperforms traditional PLS
methods. The decision-theoretic embedding further allows us to render PLS more
robust towards the involved modeling assumptions. To achieve this goal, we
introduce a multi-objective utility function. We demonstrate that the latter
can be constructed to account for different sources of uncertainty and explore
three examples: model selection, accumulation of errors and covariate shift.
- Abstract(参考訳): 擬似ラベルは半教師付き学習に対する単純かつ効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
後者は擬似ラベルの一般化性能に重大な影響を与えることが示されている。
このような基準がいくつか存在し、実際にうまく機能することが証明された。
しかし、その性能はラベル付きデータに適合する初期モデルに依存することが多い。
早期のオーバーフィッティングは、自信過剰だが誤った予測を持つインスタンスを選択することで最終モデルに伝播することができる。
近年の2つの研究で,疑似ラベル選択 (pls) が決定理論に自然に組み込まれることを実証した。
BPLSは、確認バイアスの問題を緩和するPLSのためのベイズ的フレームワークである。
その中心にある新しい選択基準は、擬似サンプルとラベル付きデータの後方予測に関する解析的近似である。
この選択基準は、この「擬似後続予測」のベイズ最適性を証明することによって導かれる。
シミュレーションおよび実世界データを用いた一般化線形・非パラメトリック一般化加法モデルとベイズニューラルネットワークに対するbplの評価を行った。
データに直面すると過度に適合し、確認バイアスの高い場合、BPLSは従来のPLS法より優れている。
さらに、決定論的埋め込みにより、PSSを関連するモデリング仮定に向けてより堅牢にすることができる。
この目的を達成するために,多目的ユーティリティ関数を導入する。
モデル選択, 誤りの蓄積, 共変量シフトの3つの例を探索し, 異なる不確実性の源を説明するために, 後者を構築できることを実証した。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for
Self-Training in Semi-Supervised Learning [0.0]
自己学習は、半教師あり学習においてシンプルだが効果的な方法である。
本稿では,PSSをより堅牢にモデル化する手法を提案する。
結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-03-02T10:00:37Z) - Approximately Bayes-Optimal Pseudo Label Selection [0.5249805590164901]
自己学習による半教師あり学習は擬似ラベル選択(PLS)に大きく依存する
したがって、初期オーバーフィッティングは、過信だが誤予測のあるインスタンスを選択することで最終モデルに伝播する可能性がある。
本稿では,この問題の緩和を目的としたBPLSについて述べる。
論文 参考訳(メタデータ) (2023-02-17T14:07:32Z) - Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification [28.37907856670151]
擬似ラベルは性質上ノイズが多いため、正しいラベルを選択すると性能が向上する可能性がある。
本稿では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
LOPSは、既存の弱い教師付きテキスト分類手法のほとんどに対して、強力なパフォーマンスブーストプラグインと見なすことができる。
論文 参考訳(メタデータ) (2022-05-25T06:46:48Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。