論文の概要: Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2406.09206v2
- Date: Fri, 04 Oct 2024 12:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:31.778014
- Title: Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models
- Title(参考訳): 事前学習言語モデルを用いたテキスト分類のためのサンプル能動学習のための自己学習
- Authors: Christopher Schröder, Gerhard Heyer,
- Abstract要約: 我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを紹介する。
その結果、4つのデータセットのうち3つに対して、再現された自己学習手法よりも優れており、以前の実験に匹敵する分類結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 3.546617486894182
- License:
- Abstract: Active learning is an iterative labeling process that is used to obtain a small labeled subset, despite the absence of labeled data, thereby enabling to train a model for supervised tasks such as text classification. While active learning has made considerable progress in recent years due to improvements provided by pre-trained language models, there is untapped potential in the often neglected unlabeled portion of the data, although it is available in considerably larger quantities than the usually small set of labeled data. In this work, we investigate how self-training, a semi-supervised approach that uses a model to obtain pseudo-labels for unlabeled data, can be used to improve the efficiency of active learning for text classification. Building on a comprehensive reproduction of four previous self-training approaches, some of which are evaluated for the first time in the context of active learning or natural language processing, we introduce HAST, a new and effective self-training strategy, which is evaluated on four text classification benchmarks. Our results show that it outperforms the reproduced self-training approaches and reaches classification results comparable to previous experiments for three out of four datasets, using as little as 25% of the data. The code is publicly available at https://github.com/chschroeder/self-training-for-sample-efficient-active-learning .
- Abstract(参考訳): アクティブラーニング(英: Active Learning)は、ラベル付きデータがないにもかかわらず、小さなラベル付きサブセットを得るために使われる反復的なラベリングプロセスであり、それによってテキスト分類などの教師付きタスクのモデルを訓練することができる。
近年、事前訓練された言語モデルによる改善により、アクティブラーニングは大幅に進歩しているが、通常は小さなラベル付きデータよりもかなり大きな量で利用できるが、しばしば無視されたラベル付きデータの一部に潜在的な可能性はない。
本研究では,テキスト分類における能動的学習の効率向上のために,モデルを用いた擬似ラベル獲得のための半教師付き学習手法である自己学習について検討する。
従来の4つの自己学習手法を総合的に再現し,そのうちのいくつかは,アクティブラーニングや自然言語処理の文脈において初めて評価され,新たな効果的な自己学習戦略であるHASTを導入し,4つのテキスト分類ベンチマークで評価した。
その結果,4つのデータセットのうち3つに比較して,再現された自己学習手法よりも優れており,25%のデータを使用すれば,従来の実験に匹敵する分類結果が得られることがわかった。
コードはhttps://github.com/chschroeder/self-training-for-sample- efficient-active-learning で公開されている。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。
能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。
私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文 参考訳(メタデータ) (2024-02-23T21:28:59Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Iterative Loop Learning Combining Self-Training and Active Learning for
Domain Adaptive Semantic Segmentation [1.827510863075184]
この問題を緩和するために、自己学習とアクティブラーニングが提案されている。
本稿では,自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:31:43Z) - Active Self-Training for Weakly Supervised 3D Scene Semantic
Segmentation [17.27850877649498]
本稿では,自己学習と能動的学習を組み合わせた3次元シーンの弱教師付きセグメンテーション手法を提案する。
提案手法は,従来の作業やベースラインよりもシーンセグメンテーションを改善する効果的な手法であることを示す。
論文 参考訳(メタデータ) (2022-09-15T06:00:25Z) - Self-Training: A Survey [5.772546394254112]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。