論文の概要: The Efficiency of Pre-training with Objective Masking in Pseudo Labeling for Semi-Supervised Text Classification
- arxiv url: http://arxiv.org/abs/2505.06624v1
- Date: Sat, 10 May 2025 12:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.94617
- Title: The Efficiency of Pre-training with Objective Masking in Pseudo Labeling for Semi-Supervised Text Classification
- Title(参考訳): 半監督テキスト分類のための擬似ラベリングにおける客観的マスキングによる事前学習の有効性
- Authors: Arezoo Hatefi, Xuan-Son Vu, Monowar Bhuyan, Frank Drewes,
- Abstract要約: 我々は、Hatefiらによって提案されたテキスト分類のための半教師付きモデルを拡張し、研究する。
このモデルはMeta Pseudo Labelsの教師/学生アーキテクチャを活用している。
実験は2つの異なる言語で3つの異なるデータセットを用いて行われる。
- 参考スコア(独自算出の注目度): 2.1249213103048414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend and study a semi-supervised model for text classification proposed earlier by Hatefi et al. for classification tasks in which document classes are described by a small number of gold-labeled examples, while the majority of training examples is unlabeled. The model leverages the teacher-student architecture of Meta Pseudo Labels in which a ''teacher'' generates labels for originally unlabeled training data to train the ''student'' and updates its own model iteratively based on the performance of the student on the gold-labeled portion of the data. We extend the original model of Hatefi et al. by an unsupervised pre-training phase based on objective masking, and conduct in-depth performance evaluations of the original model, our extension, and various independent baselines. Experiments are performed using three different datasets in two different languages (English and Swedish).
- Abstract(参考訳): 我々は、Hatefiらによって以前に提案されたテキスト分類のための半教師付きモデルを拡張し、研究し、文書クラスを少数のゴールドラベルの例で記述し、トレーニング例の大部分がラベル付けされていない分類タスクについて検討する。
モデルはメタ擬似ラベルの教師-学生アーキテクチャを活用し、'教師'は'教師'を訓練するために、もともとラベルのないトレーニングデータのラベルを生成し、そのデータのゴールドラベル部分における生徒のパフォーマンスに基づいて、自身のモデルを反復的に更新する。
対象マスキングに基づく教師なし事前学習フェーズによりHatefi et alのオリジナルモデルを拡張し、オリジナルモデル、我々の拡張、および様々な独立したベースラインの詳細なパフォーマンス評価を行う。
実験は2つの異なる言語(英語とスウェーデン語)で3つの異なるデータセットを使用して行われる。
関連論文リスト
- Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models [3.546617486894182]
我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを紹介する。
その結果、4つのデータセットのうち3つに対して、再現された自己学習手法よりも優れており、以前の実験に匹敵する分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:06:11Z) - Bridging the Gap: Learning Pace Synchronization for Open-World Semi-Supervised Learning [44.91863420044712]
オープンワールドの半教師付き学習において、機械学習モデルはラベルなしのデータから新しいカテゴリを明らかにすることを任務とする。
本稿では,(1)モデル偏差を軽減するためにクラス固有の負のマージンを課するアダプティブ・コミュニケート・ラミナル・ロス,(2)モデルによって予測される擬似ラベルを利用した擬似ラベル・コントラッシブ・クラスタリングについて紹介する。
本手法は,授業の学習速度のバランスを保ち,画像Netデータセットの平均精度を3%向上させる。
論文 参考訳(メタデータ) (2023-09-21T09:44:39Z) - Towards Weakly-Supervised Hate Speech Classification Across Datasets [47.101942709219784]
そこで本研究では,テキスト分類モデルの有効性について検討した。
また,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-04T08:15:40Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data [22.81068960545234]
本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
論文 参考訳(メタデータ) (2021-09-22T17:29:01Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。