論文の概要: In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for
Self-Training in Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2303.01117v1
- Date: Thu, 2 Mar 2023 10:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:06:03.673930
- Title: In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for
Self-Training in Semi-Supervised Learning
- Title(参考訳): すべての類型:半監督学習における自己学習のための擬似ラベルデータの選択方法
- Authors: Julian Rodemann, Christoph Jansen, Georg Schollmeyer, Thomas Augustin
- Abstract要約: 自己学習は、半教師あり学習においてシンプルだが効果的な方法である。
本稿では,PSSをより堅牢にモデル化する手法を提案する。
結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-training is a simple yet effective method within semi-supervised
learning. The idea is to iteratively enhance training data by adding
pseudo-labeled data. Its generalization performance heavily depends on the
selection of these pseudo-labeled data (PLS). In this paper, we aim at
rendering PLS more robust towards the involved modeling assumptions. To this
end, we propose to select pseudo-labeled data that maximize a multi-objective
utility function. The latter is constructed to account for different sources of
uncertainty, three of which we discuss in more detail: model selection,
accumulation of errors and covariate shift. In the absence of second-order
information on such uncertainties, we furthermore consider the generic approach
of the generalized Bayesian alpha-cut updating rule for credal sets. As a
practical proof of concept, we spotlight the application of three of our robust
extensions on simulated and real-world data. Results suggest that in particular
robustness w.r.t. model choice can lead to substantial accuracy gains.
- Abstract(参考訳): 自己学習は半教師付き学習において単純かつ効果的な方法である。
擬似ラベル付きデータを追加することで、トレーニングデータを反復的に強化する。
一般化性能はこれらの擬似ラベルデータ(PLS)の選択に大きく依存する。
本稿では,plsをモデリングの前提に対してより堅牢にすることを目的としている。
この目的のために,多目的ユーティリティ関数を最大化する擬似ラベルデータを選択することを提案する。
後者は不確実性の異なる源を考慮し、モデルの選択、エラーの蓄積、共変量シフトの3つについてより詳細に論じる。
このような不確実性に関する二階情報がない場合には、さらに一般ベイズ的αカット更新規則の一般的アプローチを考える。
概念実証として,シミュレーションデータと実世界のデータに対する3つの頑健な拡張の適用が注目される。
結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。
関連論文リスト
- Uncertainty-aware self-training with expectation maximization basis transformation [9.7527450662978]
モデルとデータセットの両方の不確実性情報を組み合わせるための,新たな自己学習フレームワークを提案する。
具体的には,ラベルをスムースにし,不確実性情報を包括的に推定するために期待最大化(EM)を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:01:31Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Pseudo Label Selection is a Decision Problem [0.0]
Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
論文 参考訳(メタデータ) (2023-09-25T07:48:02Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Enhancing Self-Training Methods [0.0]
半教師付き学習アプローチでは、ラベル付きデータの小さなセットとラベルなしデータの大きなセットをトレーニングする。
自己学習は「確認バイアス」の問題に悩まされる半教師型教師学生のアプローチである
論文 参考訳(メタデータ) (2023-01-18T03:56:17Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。