論文の概要: Neural Networks Against (and For) Self-Training: Classification with
Small Labeled and Large Unlabeled Sets
- arxiv url: http://arxiv.org/abs/2401.00575v1
- Date: Sun, 31 Dec 2023 19:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:43:01.117547
- Title: Neural Networks Against (and For) Self-Training: Classification with
Small Labeled and Large Unlabeled Sets
- Title(参考訳): ニューラルネットワークによる自己学習--小さなラベル付きおよび大きなラベルなし集合を用いた分類
- Authors: Payam Karisani
- Abstract要約: 自己学習の弱点の1つは意味的ドリフト問題である。
擬似ラベルの役割を再構築し,階層的な情報順序を創出する。
自己学習における重要なステップは、自信の予測を使用して、最適な候補の擬似ラベルを選択することである。
- 参考スコア(独自算出の注目度): 11.385682758047775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a semi-supervised text classifier based on self-training using one
positive and one negative property of neural networks. One of the weaknesses of
self-training is the semantic drift problem, where noisy pseudo-labels
accumulate over iterations and consequently the error rate soars. In order to
tackle this challenge, we reshape the role of pseudo-labels and create a
hierarchical order of information. In addition, a crucial step in self-training
is to use the classifier confidence prediction to select the best candidate
pseudo-labels. This step cannot be efficiently done by neural networks, because
it is known that their output is poorly calibrated. To overcome this challenge,
we propose a hybrid metric to replace the plain confidence measurement. Our
metric takes into account the prediction uncertainty via a subsampling
technique. We evaluate our model in a set of five standard benchmarks, and show
that it significantly outperforms a set of ten diverse baseline models.
Furthermore, we show that the improvement achieved by our model is additive to
language model pretraining, which is a widely used technique for using
unlabeled documents. Our code is available at
https://github.com/p-karisani/RST.
- Abstract(参考訳): ニューラルネットワークの正と負の1つの特性を用いた自己学習に基づく半教師付きテキスト分類器を提案する。
自己学習の弱点の1つはセマンティックドリフト問題であり、ノイズの多い擬似ラベルが反復的に蓄積され、結果としてエラー率が上昇する。
この課題に対処するため、擬似ラベルの役割を再構築し、階層的な情報の順序を作る。
さらに、自己学習における重要なステップは、分類器の信頼度予測を使って最良の候補の擬似ラベルを選択することである。
このステップは、ニューラルネットワークによって効率的に行うことはできない。
この課題を克服するために,信頼度測定を代替するハイブリッド指標を提案する。
サブサンプリング手法を用いて予測の不確実性を考慮する。
我々は,このモデルを5つの標準ベンチマークで評価し,10種類のベースラインモデルを大幅に上回っていることを示す。
さらに,本モデルにより達成された改善は,未ラベル文書の使用に広く用いられている言語モデル事前学習に付加的であることを示す。
私たちのコードはhttps://github.com/p-karisani/RSTで利用可能です。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - NorMatch: Matching Normalizing Flows with Discriminative Classifiers for
Semi-Supervised Learning [8.749830466953584]
Semi-Supervised Learning (SSL)は、小さなラベル付きセットと大量のラベルなしデータを使ってモデルを学習することを目的としている。
この作業では、NorMatchというSSLの新しいフレームワークを紹介します。
数値的および視覚的な結果を通して、NorMatchはいくつかのデータセットで最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2022-11-17T15:39:18Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Semi-Supervised Text Classification via Self-Pretraining [0.0]
本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。
我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。
以前はラベル付けされていた文書に対する信条を更新する可能性がある。
論文 参考訳(メタデータ) (2021-09-30T17:45:16Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。