論文の概要: CAST: Cluster-Aware Self-Training for Tabular Data
- arxiv url: http://arxiv.org/abs/2310.06380v1
- Date: Tue, 10 Oct 2023 07:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:33:15.987577
- Title: CAST: Cluster-Aware Self-Training for Tabular Data
- Title(参考訳): CAST: 語彙データのためのクラスタ対応自己学習
- Authors: Minwook Kim, Juseong Kim, Kibeom Kim, Donggil Kang, Giltae Song
- Abstract要約: CAST(Cluster-Aware Self-Training)は、既存の自己学習アルゴリズムを改良することなく拡張するための、シンプルで普遍的に適応可能なアプローチである。
本手法は, 擬似ラベルの値を表す分類器の信頼性を規則化し, 低密度領域の擬似ラベルに対して, 学習データ内の各クラスに対する事前知識を活用することにより, 信頼度を低くする。
- 参考スコア(独自算出の注目度): 0.4999814847776098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training has gained attraction because of its simplicity and
versatility, yet it is vulnerable to noisy pseudo-labels. Several studies have
proposed successful approaches to tackle this issue, but they have diminished
the advantages of self-training because they require specific modifications in
self-training algorithms or model architectures. Furthermore, most of them are
incompatible with gradient boosting decision trees, which dominate the tabular
domain. To address this, we revisit the cluster assumption, which states that
data samples that are close to each other tend to belong to the same class.
Inspired by the assumption, we propose Cluster-Aware Self-Training (CAST) for
tabular data. CAST is a simple and universally adaptable approach for enhancing
existing self-training algorithms without significant modifications.
Concretely, our method regularizes the confidence of the classifier, which
represents the value of the pseudo-label, forcing the pseudo-labels in
low-density regions to have lower confidence by leveraging prior knowledge for
each class within the training data. Extensive empirical evaluations on up to
20 real-world datasets confirm not only the superior performance of CAST but
also its robustness in various setups in self-training contexts.
- Abstract(参考訳): 自己学習は単純さと汎用性から注目を集めているが、ノイズの多い擬似ラベルには弱い。
この問題に対処するためのいくつかの研究が成功したアプローチを提案しているが、自己学習アルゴリズムやモデルアーキテクチャの特定の修正を必要とするため、自己学習の利点を減らした。
さらに、それらのほとんどは、表ドメインを支配する勾配ブースティング決定木と互換性がない。
これに対処するために、私たちは、互いに近いデータサンプルが同じクラスに属する傾向があるというクラスタの仮定を再検討します。
この仮定に触発されて,表データに対するクラスタ対応自己学習(CAST)を提案する。
CASTは、大幅な修正なしに既存の自己学習アルゴリズムを強化するための、シンプルで普遍的に適応可能なアプローチである。
具体的には,疑似ラベルの値を表す分類器の信頼度を定式化し,訓練データ内の各クラスに対する事前知識を活用し,低密度領域の疑似ラベルの信頼度を低下させる。
最大20の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。
関連論文リスト
- CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。
ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文 参考訳(メタデータ) (2024-07-02T15:05:19Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular
Data [0.0]
我々は、勾配向上決定木を含むあらゆる種類のアルゴリズムに適用可能な自己学習を再考する。
疑似ラベルの可能性に基づいて信頼度を正則化する新しい擬似ラベル手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T18:12:56Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。