論文の概要: Semi-Supervised Text Classification via Self-Pretraining
- arxiv url: http://arxiv.org/abs/2109.15300v1
- Date: Thu, 30 Sep 2021 17:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:55:11.733084
- Title: Semi-Supervised Text Classification via Self-Pretraining
- Title(参考訳): 自己事前学習による半監督テキスト分類
- Authors: Payam Karisani, Negin Karisani
- Abstract要約: 本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。
我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。
以前はラベル付けされていた文書に対する信条を更新する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural semi-supervised learning model termed Self-Pretraining.
Our model is inspired by the classic self-training algorithm. However, as
opposed to self-training, Self-Pretraining is threshold-free, it can
potentially update its belief about previously labeled documents, and can cope
with the semantic drift problem. Self-Pretraining is iterative and consists of
two classifiers. In each iteration, one classifier draws a random set of
unlabeled documents and labels them. This set is used to initialize the second
classifier, to be further trained by the set of labeled documents. The
algorithm proceeds to the next iteration and the classifiers' roles are
reversed. To improve the flow of information across the iterations and also to
cope with the semantic drift problem, Self-Pretraining employs an iterative
distillation process, transfers hypotheses across the iterations, utilizes a
two-stage training model, uses an efficient learning rate schedule, and employs
a pseudo-label transformation heuristic. We have evaluated our model in three
publicly available social media datasets. Our experiments show that
Self-Pretraining outperforms the existing state-of-the-art semi-supervised
classifiers across multiple settings. Our code is available at
https://github.com/p-karisani/self_pretraining.
- Abstract(参考訳): 本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。
我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。
しかし、自己学習とは対照的に、自己予習はしきい値フリーであり、以前のラベル付きドキュメントに対する信念を更新でき、意味的ドリフト問題に対処することができる。
自己訓練は反復的であり、2つの分類器から構成される。
各イテレーションでは、ひとつの分類器がラベルのないドキュメントのランダムなセットを描画し、ラベル付けする。
このセットは第2の分類器を初期化するために使用され、ラベル付き文書のセットによってさらに訓練される。
アルゴリズムは次のイテレーションに進み、分類器の役割は逆になる。
イテレーション間の情報の流れを改善し、かつ、セマンティックドリフト問題に対処するために、自己予習は反復蒸留プロセスを使用し、イテレーション間で仮説を転送し、2段階のトレーニングモデルを使用し、効率的な学習率スケジュールを使用し、擬似ラベル変換ヒューリスティックを用いる。
我々はこのモデルを3つの公開ソーシャルメディアデータセットで評価した。
実験により, 自己事前学習は, 既存の半教師付き分類器を複数の設定で上回ることを示した。
私たちのコードはhttps://github.com/p-karisani/self_pretrainingで利用可能です。
関連論文リスト
- Neural Networks Against (and For) Self-Training: Classification with
Small Labeled and Large Unlabeled Sets [11.385682758047775]
自己学習の弱点の1つは意味的ドリフト問題である。
擬似ラベルの役割を再構築し,階層的な情報順序を創出する。
自己学習における重要なステップは、自信の予測を使用して、最適な候補の擬似ラベルを選択することである。
論文 参考訳(メタデータ) (2023-12-31T19:25:34Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for
Wikipedia Categories [5.652290685410878]
本研究は,NLPにおけるゼロショットテキスト分類問題の解決に重点を置いている。
本稿では,テキストではなくラベルを用いた新たな自己学習戦略を提案する。
提案手法は,Yahoo Topic と AG News の双方のデータセットに対して,最先端の結果を得られる。
論文 参考訳(メタデータ) (2023-07-28T04:17:41Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Self-Training: A Survey [6.116681488656473]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - A Unified Generative Adversarial Network Training via Self-Labeling and
Self-Attention [38.31735499785227]
本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。
提案手法では,手動で定義したラベルを組み込むことができる人工ラベル方式を導入する。
我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-18T04:40:26Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Statistical and Algorithmic Insights for Semi-supervised Learning with
Self-training [30.866440916522826]
自己学習は、半教師あり学習における古典的なアプローチである。
自己学習の繰り返しは、たとえ最適でない固定点に留まったとしても、モデル精度を良好に向上することを示す。
次に、自己学習に基づく半スーパービジョンと、異種データによる学習のより一般的な問題との関連性を確立する。
論文 参考訳(メタデータ) (2020-06-19T08:09:07Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。