論文の概要: CAST: Cluster-Aware Self-Training for Tabular Data
- arxiv url: http://arxiv.org/abs/2310.06380v1
- Date: Tue, 10 Oct 2023 07:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:33:15.987577
- Title: CAST: Cluster-Aware Self-Training for Tabular Data
- Title(参考訳): CAST: 語彙データのためのクラスタ対応自己学習
- Authors: Minwook Kim, Juseong Kim, Kibeom Kim, Donggil Kang, Giltae Song
- Abstract要約: CAST(Cluster-Aware Self-Training)は、既存の自己学習アルゴリズムを改良することなく拡張するための、シンプルで普遍的に適応可能なアプローチである。
本手法は, 擬似ラベルの値を表す分類器の信頼性を規則化し, 低密度領域の擬似ラベルに対して, 学習データ内の各クラスに対する事前知識を活用することにより, 信頼度を低くする。
- 参考スコア(独自算出の注目度): 0.4999814847776098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training has gained attraction because of its simplicity and
versatility, yet it is vulnerable to noisy pseudo-labels. Several studies have
proposed successful approaches to tackle this issue, but they have diminished
the advantages of self-training because they require specific modifications in
self-training algorithms or model architectures. Furthermore, most of them are
incompatible with gradient boosting decision trees, which dominate the tabular
domain. To address this, we revisit the cluster assumption, which states that
data samples that are close to each other tend to belong to the same class.
Inspired by the assumption, we propose Cluster-Aware Self-Training (CAST) for
tabular data. CAST is a simple and universally adaptable approach for enhancing
existing self-training algorithms without significant modifications.
Concretely, our method regularizes the confidence of the classifier, which
represents the value of the pseudo-label, forcing the pseudo-labels in
low-density regions to have lower confidence by leveraging prior knowledge for
each class within the training data. Extensive empirical evaluations on up to
20 real-world datasets confirm not only the superior performance of CAST but
also its robustness in various setups in self-training contexts.
- Abstract(参考訳): 自己学習は単純さと汎用性から注目を集めているが、ノイズの多い擬似ラベルには弱い。
この問題に対処するためのいくつかの研究が成功したアプローチを提案しているが、自己学習アルゴリズムやモデルアーキテクチャの特定の修正を必要とするため、自己学習の利点を減らした。
さらに、それらのほとんどは、表ドメインを支配する勾配ブースティング決定木と互換性がない。
これに対処するために、私たちは、互いに近いデータサンプルが同じクラスに属する傾向があるというクラスタの仮定を再検討します。
この仮定に触発されて,表データに対するクラスタ対応自己学習(CAST)を提案する。
CASTは、大幅な修正なしに既存の自己学習アルゴリズムを強化するための、シンプルで普遍的に適応可能なアプローチである。
具体的には,疑似ラベルの値を表す分類器の信頼度を定式化し,訓練データ内の各クラスに対する事前知識を活用し,低密度領域の疑似ラベルの信頼度を低下させる。
最大20の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Statistical and Algorithmic Insights for Semi-supervised Learning with
Self-training [30.866440916522826]
自己学習は、半教師あり学習における古典的なアプローチである。
自己学習の繰り返しは、たとえ最適でない固定点に留まったとしても、モデル精度を良好に向上することを示す。
次に、自己学習に基づく半スーパービジョンと、異種データによる学習のより一般的な問題との関連性を確立する。
論文 参考訳(メタデータ) (2020-06-19T08:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。