論文の概要: CAST: Cluster-Aware Self-Training for Tabular Data
- arxiv url: http://arxiv.org/abs/2310.06380v2
- Date: Fri, 2 Feb 2024 17:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:40:44.927955
- Title: CAST: Cluster-Aware Self-Training for Tabular Data
- Title(参考訳): CAST: 語彙データのためのクラスタ対応自己学習
- Authors: Minwook Kim, Juseong Kim, Ki Beom Kim, Giltae Song
- Abstract要約: 自己学習は、誤った自信によって引き起こされるノイズの多い擬似ラベルに対して脆弱である。
CAST(Cluster-Aware Self-Training)は、既存の自己学習アルゴリズムを、大幅な修正なしに無視可能なコストで強化する。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training has gained attraction because of its simplicity and
versatility, yet it is vulnerable to noisy pseudo-labels caused by erroneous
confidence. Several solutions have been proposed to handle the problem, but
they require significant modifications in self-training algorithms or model
architecture, and most have limited applicability in tabular domains. To
address this issue, we explore a novel direction of reliable confidence in
self-training contexts and conclude that the confidence, which represents the
value of the pseudo-label, should be aware of the cluster assumption. In this
regard, we propose Cluster-Aware Self-Training (CAST) for tabular data, which
enhances existing self-training algorithms at a negligible cost without
significant modifications. Concretely, CAST regularizes the confidence of the
classifier by leveraging local density for each class in the labeled training
data, forcing the pseudo-labels in low-density regions to have lower
confidence. Extensive empirical evaluations on up to 21 real-world datasets
confirm not only the superior performance of CAST but also its robustness in
various setups in self-training contexts.
- Abstract(参考訳): 自己学習は単純さと汎用性から注目を集めているが、誤った自信によって生じる偽のラベルに弱い。
この問題に対処するためにいくつかの解決策が提案されているが、それらは自己学習アルゴリズムやモデルアーキテクチャの大幅な修正を必要とする。
この問題に対処するため,我々は,自己学習コンテキストにおける信頼の新たな方向性を探求し,疑似ラベルの値を表す信頼度がクラスタの仮定を意識すべきであると結論付ける。
本稿では,有意な修正を伴わずに既存の自己学習アルゴリズムを無視できるコストで拡張する,表型データのためのクラスタアウェア自己学習(CAST)を提案する。
具体的には、castはラベル付きトレーニングデータ内の各クラスの局所密度を利用して分類器の信頼性を定式化し、低密度領域の疑似ラベルの信頼性を低下させる。
最大21の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。
関連論文リスト
- CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。
ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文 参考訳(メタデータ) (2024-07-02T15:05:19Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。