論文の概要: Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias
- arxiv url: http://arxiv.org/abs/2310.14814v4
- Date: Wed, 3 Apr 2024 09:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:08:03.560333
- Title: Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias
- Title(参考訳): サンプル選択バイアスの有無によるロバスト自己学習のためのアンサンブル多様性の活用
- Authors: Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko,
- Abstract要約: 半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
- 参考スコア(独自算出の注目度): 5.698050337128548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training is a well-known approach for semi-supervised learning. It consists of iteratively assigning pseudo-labels to unlabeled data for which the model is confident and treating them as labeled examples. For neural networks, softmax prediction probabilities are often used as a confidence measure, although they are known to be overconfident, even for wrong predictions. This phenomenon is particularly intensified in the presence of sample selection bias, i.e., when data labeling is subject to some constraint. To address this issue, we propose a novel confidence measure, called $\mathcal{T}$-similarity, built upon the prediction diversity of an ensemble of linear classifiers. We provide the theoretical analysis of our approach by studying stationary points and describing the relationship between the diversity of the individual members and their performance. We empirically demonstrate the benefit of our confidence measure for three different pseudo-labeling policies on classification datasets of various data modalities. The code is available at https://github.com/ambroiseodt/tsim.
- Abstract(参考訳): 自己学習は半教師あり学習におけるよく知られたアプローチである。
モデルが信頼しているラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
この現象は特にサンプル選択バイアスの存在、すなわちデータラベリングが何らかの制約を受ける場合において強化される。
この問題に対処するため、線形分類器のアンサンブルの予測多様性に基づいて、$\mathcal{T}$-similarityと呼ばれる新しい信頼度尺度を提案する。
本研究では,定常点の学習によるアプローチの理論解析を行い,各メンバーの多様性とパフォーマンスの関係について述べる。
各種データモダリティの分類データセットに対する3つの異なる擬似ラベルポリシーに対する信頼度尺度の利点を実証的に実証した。
コードはhttps://github.com/ambroiseodt/tsimで公開されている。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Pseudo Label Selection is a Decision Problem [0.0]
Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
論文 参考訳(メタデータ) (2023-09-25T07:48:02Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning [25.27527138880104]
半教師付き学習は、大量のラベルのないデータを活用するための効果的なパラダイムであることが証明されている。
AggMatchは、異なる自信のあるインスタンスを使用して初期擬似ラベルを洗練する。
我々は,AggMatchの標準ベンチマークにおける最新の手法に対する有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-01-25T16:41:54Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Robust Fairness under Covariate Shift [11.151913007808927]
保護グループメンバーシップに関して公正な予測を行うことは、分類アルゴリズムの重要な要件となっている。
本稿では,ターゲット性能の面で最悪のケースに対して頑健な予測値を求める手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T04:42:01Z) - How to trust unlabeled data? Instance Credibility Inference for Few-Shot
Learning [47.21354101796544]
本稿では,未ラベルのインスタンスを数発の視覚認識に利用するために,ICI (Instance Credibility Inference) と呼ばれる統計的アプローチを提案する。
擬似ラベル付きインスタンスの信頼性は, それらの付随パラメータの正規化経路に沿ってランク付けし, 最も信頼性の高い擬似ラベル付きインスタンスを拡張ラベル付きインスタンスとして保存する。
論文 参考訳(メタデータ) (2020-07-15T03:38:09Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。