論文の概要: Semi-Supervised Text Classification via Self-Pretraining
- arxiv url: http://arxiv.org/abs/2109.15300v1
- Date: Thu, 30 Sep 2021 17:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:55:11.733084
- Title: Semi-Supervised Text Classification via Self-Pretraining
- Title(参考訳): 自己事前学習による半監督テキスト分類
- Authors: Payam Karisani, Negin Karisani
- Abstract要約: 本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。
我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。
以前はラベル付けされていた文書に対する信条を更新する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural semi-supervised learning model termed Self-Pretraining.
Our model is inspired by the classic self-training algorithm. However, as
opposed to self-training, Self-Pretraining is threshold-free, it can
potentially update its belief about previously labeled documents, and can cope
with the semantic drift problem. Self-Pretraining is iterative and consists of
two classifiers. In each iteration, one classifier draws a random set of
unlabeled documents and labels them. This set is used to initialize the second
classifier, to be further trained by the set of labeled documents. The
algorithm proceeds to the next iteration and the classifiers' roles are
reversed. To improve the flow of information across the iterations and also to
cope with the semantic drift problem, Self-Pretraining employs an iterative
distillation process, transfers hypotheses across the iterations, utilizes a
two-stage training model, uses an efficient learning rate schedule, and employs
a pseudo-label transformation heuristic. We have evaluated our model in three
publicly available social media datasets. Our experiments show that
Self-Pretraining outperforms the existing state-of-the-art semi-supervised
classifiers across multiple settings. Our code is available at
https://github.com/p-karisani/self_pretraining.
- Abstract(参考訳): 本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。
我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。
しかし、自己学習とは対照的に、自己予習はしきい値フリーであり、以前のラベル付きドキュメントに対する信念を更新でき、意味的ドリフト問題に対処することができる。
自己訓練は反復的であり、2つの分類器から構成される。
各イテレーションでは、ひとつの分類器がラベルのないドキュメントのランダムなセットを描画し、ラベル付けする。
このセットは第2の分類器を初期化するために使用され、ラベル付き文書のセットによってさらに訓練される。
アルゴリズムは次のイテレーションに進み、分類器の役割は逆になる。
イテレーション間の情報の流れを改善し、かつ、セマンティックドリフト問題に対処するために、自己予習は反復蒸留プロセスを使用し、イテレーション間で仮説を転送し、2段階のトレーニングモデルを使用し、効率的な学習率スケジュールを使用し、擬似ラベル変換ヒューリスティックを用いる。
我々はこのモデルを3つの公開ソーシャルメディアデータセットで評価した。
実験により, 自己事前学習は, 既存の半教師付き分類器を複数の設定で上回ることを示した。
私たちのコードはhttps://github.com/p-karisani/self_pretrainingで利用可能です。
関連論文リスト
- Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models [3.546617486894182]
我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを紹介する。
その結果、4つのデータセットのうち3つに対して、再現された自己学習手法よりも優れており、以前の実験に匹敵する分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:06:11Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Neural Networks Against (and For) Self-Training: Classification with
Small Labeled and Large Unlabeled Sets [11.385682758047775]
自己学習の弱点の1つは意味的ドリフト問題である。
擬似ラベルの役割を再構築し,階層的な情報順序を創出する。
自己学習における重要なステップは、自信の予測を使用して、最適な候補の擬似ラベルを選択することである。
論文 参考訳(メタデータ) (2023-12-31T19:25:34Z) - WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for
Wikipedia Categories [5.652290685410878]
本研究は,NLPにおけるゼロショットテキスト分類問題の解決に重点を置いている。
本稿では,テキストではなくラベルを用いた新たな自己学習戦略を提案する。
提案手法は,Yahoo Topic と AG News の双方のデータセットに対して,最先端の結果を得られる。
論文 参考訳(メタデータ) (2023-07-28T04:17:41Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Self-Training: A Survey [5.772546394254112]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。