論文の概要: Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular
Data
- arxiv url: http://arxiv.org/abs/2302.14013v2
- Date: Tue, 28 Feb 2023 03:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 12:29:48.012495
- Title: Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular
Data
- Title(参考訳): 正規化擬似ラベルによる自己学習の再検討
- Authors: Minwook Kim, Juseong Kim, Jose Bento, Giltae Song
- Abstract要約: 我々は、勾配向上決定木を含むあらゆる種類のアルゴリズムに適用可能な自己学習を再考する。
疑似ラベルの可能性に基づいて信頼度を正則化する新しい擬似ラベル手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in semi- and self-supervised learning has caused a rift in
the long-held belief about the need for an enormous amount of labeled data for
machine learning and the irrelevancy of unlabeled data. Although it has been
successful in various data, there is no dominant semi- and self-supervised
learning method that can be generalized for tabular data (i.e. most of the
existing methods require appropriate tabular datasets and architectures). In
this paper, we revisit self-training which can be applied to any kind of
algorithm including the most widely used architecture, gradient boosting
decision tree, and introduce curriculum pseudo-labeling (a state-of-the-art
pseudo-labeling technique in image) for a tabular domain. Furthermore, existing
pseudo-labeling techniques do not assure the cluster assumption when computing
confidence scores of pseudo-labels generated from unlabeled data. To overcome
this issue, we propose a novel pseudo-labeling approach that regularizes the
confidence scores based on the likelihoods of the pseudo-labels so that more
reliable pseudo-labels which lie in high density regions can be obtained. We
exhaustively validate the superiority of our approaches using various models
and tabular datasets.
- Abstract(参考訳): 半教師付き学習の最近の進歩は、機械学習のための膨大なラベル付きデータの必要性とラベルなしデータの無関係性に関する長年の信念に亀裂をもたらした。
様々なデータで成功を収めているが、表データに一般化できる支配的な半教師あり学習法はない(つまり、既存の方法の多くは適切な表型データセットとアーキテクチャを必要とする)。
本稿では,最も広く使われているアーキテクチャ,勾配ブースティング決定木を含む任意のアルゴリズムに適用可能な自己学習を再検討し,表型ドメインのカリキュラム擬似ラベル(画像における最先端の擬似ラベル技術)を導入する。
さらに、既存の擬似ラベル技術は、ラベルなしデータから生成された疑似ラベルの信頼度スコアを計算する場合、クラスタの仮定を保証しない。
そこで本研究では,高密度領域にあるより信頼性の高い疑似ラベルを得られるように,疑似ラベルの可能性に基づいて信頼度を正則化する,新しい擬似ラベル手法を提案する。
様々なモデルと表付きデータセットを用いて、アプローチの優位性を徹底的に検証する。
関連論文リスト
- You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Why pseudo label based algorithm is effective? --from the perspective of
pseudo labeled data [1.8402019107354282]
本稿では,擬似ラベルに基づく半教師付き学習がなぜ有効なのかを理論的に分析する。
解析の結果、まず、ラベルなしデータの量が無限大になる傾向にある場合、擬似ラベルに基づく半教師付き学習アルゴリズムは、通常訓練によって得られるモデルと同じ一般化誤差上限を持つモデルを得ることができることがわかった。
さらに重要なことは、ラベル付きデータの量が十分に大きい場合、擬似ラベルに基づく半教師付き学習アルゴリズムによって得られたモデルの一般化誤差上限が線形収束率で最適上限に収束できることである。
論文 参考訳(メタデータ) (2022-11-18T05:34:37Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - GuidedMix-Net: Learning to Improve Pseudo Masks Using Labeled Images as
Reference [153.354332374204]
半教師付きセマンティックセマンティックセグメンテーションのための新しい手法である GuidedMix-Net を提案する。
まず、ラベル付きデータとラベルなしデータの間に特徴アライメントの目的を導入し、類似した画像対をキャプチャする。
MITransは、ラベルなしデータのさらなるプログレッシブな精細化のための強力な知識モジュールであることが示されている。
ラベル付きデータに対する教師付き学習とともに、ラベル付きデータの予測が生成した擬似マスクとともに学習される。
論文 参考訳(メタデータ) (2021-06-29T02:48:45Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Self-semi-supervised Learning to Learn from NoisyLabeled Data [3.18577806302116]
高品質なラベル付きデータを得るには費用がかかるため、ノイズの多いラベルに頑健なトレーニングモデルの活発な研究領域につながる。
本研究では,クリーンでノイズの多いラベルをより正確に区別する手法を考案し,ノイズの多いラベル付きデータを学習するために自己半教師付き学習の知恵を借りた。
論文 参考訳(メタデータ) (2020-11-03T02:31:29Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。