論文の概要: Semi-Supervised Learning with Multiple Imputations on Non-Random Missing
Labels
- arxiv url: http://arxiv.org/abs/2308.07562v1
- Date: Tue, 15 Aug 2023 04:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:59:58.512981
- Title: Semi-Supervised Learning with Multiple Imputations on Non-Random Missing
Labels
- Title(参考訳): 非ランダム欠落ラベルに対する複数命令による半教師付き学習
- Authors: Jason Lu, Michael Ma, Huaze Xu, Zixi Xu
- Abstract要約: Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。
本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせるための2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semi-Supervised Learning (SSL) is implemented when algorithms are trained on
both labeled and unlabeled data. This is a very common application of ML as it
is unrealistic to obtain a fully labeled dataset. Researchers have tackled
three main issues: missing at random (MAR), missing completely at random
(MCAR), and missing not at random (MNAR). The MNAR problem is the most
challenging of the three as one cannot safely assume that all class
distributions are equal. Existing methods, including Class-Aware Imputation
(CAI) and Class-Aware Propensity (CAP), mostly overlook the non-randomness in
the unlabeled data. This paper proposes two new methods of combining multiple
imputation models to achieve higher accuracy and less bias. 1) We use multiple
imputation models, create confidence intervals, and apply a threshold to ignore
pseudo-labels with low confidence. 2) Our new method, SSL with De-biased
Imputations (SSL-DI), aims to reduce bias by filtering out inaccurate data and
finding a subset that is accurate and reliable. This subset of the larger
dataset could be imputed into another SSL model, which will be less biased. The
proposed models have been shown to be effective in both MCAR and MNAR
situations, and experimental results show that our methodology outperforms
existing methods in terms of classification accuracy and reducing bias.
- Abstract(参考訳): Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。
これはmlの非常に一般的な応用であり、完全なラベル付きデータセットを取得することは非現実的である。
研究者は、ランダム(MAR)の欠如、完全にランダム(MCAR)の欠如、ランダム(MNAR)の欠如という3つの主要な問題に取り組んでいる。
mnar問題は3つの中で最も難しい問題であり、すべてのクラス分布が等しいと安全に仮定できない。
CAI(Class-Aware Imputation)やCAP(Class-Aware Propensity)といった既存の手法は、ラベルなしデータの非ランダム性を見落としている。
本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせる2つの新しい手法を提案する。
1)複数のインプテーションモデルを用い,信頼区間を作成し,信頼度の低い擬似ラベルを無視する閾値を適用した。
2)新しい手法であるSSL-DIは,不正確なデータをフィルタリングし,正確で信頼性の高いサブセットを見つけることによってバイアスを低減することを目的としている。
大きなデータセットのこのサブセットは、別のsslモデルに組み込むことができるが、バイアスは少なくなる。
提案手法はMCARとMNARの両方の状況において有効であることが示されており,本手法は,分類精度とバイアス低減の観点から既存手法よりも優れていることを示す実験結果が得られた。
関連論文リスト
- Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Land Cover and Land Use Detection using Semi-Supervised Learning [0.0]
ラベルを作成し、適切な精度でモデルをトレーニングします。
我々は、EuroSAT、UCM、WHU-RS19という、さまざまなタイプの不均衡衛星画像データセットを使用している。
我々のアプローチはラベル付きデータの要求を大幅に減らし、代替手法を一貫して上回り、データセットのクラス不均衡に起因するモデルバイアスの問題を解決する。
論文 参考訳(メタデータ) (2022-12-21T17:36:28Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - OpenMatch: Open-set Consistency Regularization for Semi-supervised
Learning with Outliers [71.08167292329028]
我々はOpenMatchと呼ばれる新しいオープンセットセミスーパーバイザードラーニング(OSSL)アプローチを提案する。
OpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統合する。
3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全な教師付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-28T23:57:15Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。