Fugu-MT 論文翻訳(概要): A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks

論文の概要: A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks

arxiv url: http://arxiv.org/abs/2407.17284v1
Date: Wed, 24 Jul 2024 13:50:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 13:44:46.644066
Title: A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks
Title（参考訳）: テキスト分類作業におけるコールドスタート能動学習のための2ステップファインチューニングパイプライン
Authors: Fabiano Belém, Washington Cunha, Celso França, Claudio Andrade, Leonardo Rocha, Marcos André Gonçalves,
Abstract要約: 本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
参考スコア（独自算出の注目度）: 7.72751543977484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This is the first work to investigate the effectiveness of BERT-based contextual embeddings in active learning (AL) tasks on cold-start scenarios, where traditional fine-tuning is infeasible due to the absence of labeled data. Our primary contribution is the proposal of a more robust fine-tuning pipeline - DoTCAL - that diminishes the reliance on labeled data in AL using two steps: (1) fully leveraging unlabeled data through domain adaptation of the embeddings via masked language modeling and (2) further adjusting model weights using labeled data selected by AL. Our evaluation contrasts BERT-based embeddings with other prevalent text representation paradigms, including Bag of Words (BoW), Latent Semantic Indexing (LSI), and FastText, at two critical stages of the AL process: instance selection and classification. Experiments conducted on eight ATC benchmarks with varying AL budgets (number of labeled instances) and number of instances (about 5,000 to 300,000) demonstrate DoTCAL's superior effectiveness, achieving up to a 33% improvement in Macro-F1 while reducing labeling efforts by half compared to the traditional one-step method. We also found that in several tasks, BoW and LSI (due to information aggregation) produce results superior (up to 59% ) to BERT, especially in low-budget scenarios and hard-to-classify tasks, which is quite surprising.
Abstract（参考訳）: これは、ラベル付きデータがないために従来の微調整が不可能なコールドスタートシナリオにおける、アクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性を調査する最初の試みである。主な貢献は、(1)マスク付き言語モデリングによる埋め込みのドメイン適応によるラベルなしデータの完全活用と、(2)ALが選択したラベル付きデータによるモデル重み付けの調整の2つのステップを用いて、ラベル付きデータへの依存を緩和する、より堅牢な微調整パイプラインであるDoTCALの提案である。提案手法は,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなどの一般的なテキスト表現パラダイムと,ALプロセスの2つの重要な段階において,BERTベースの埋め込みと対比する。 AL予算の異なる8つのATCベンチマーク(ラベル付きインスタンス数)とインスタンス数(約5,000から30,000)で実施された実験は、DoTCALの優れた効果を示し、マクロF1の最大33%の改善を実現し、従来のワンステップ法に比べてラベル付けの労力を半分削減した。また,複数のタスクにおいて,BoWとLSIはBERTよりも優れた結果(最大59%)を得られることが判明した。

関連論文リスト

Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs [14.531280062127442]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示してきたが、専門的なアプリケーションのための高性能なモデルを開発するには、かなりの人的アノテーションを必要とすることが多い。本研究では,効率的なデータ選択の基本原理としてタスク多様性を活用することで,教師付き微調整(SFT)におけるラベル効率の学習問題に対処する。提案手法は,1) 異なるプロンプトに対するタスクラベルが容易に利用できること,2) 事前学習されたモデルがタスク間の信頼度を著しく変化させること,の2つの重要な結果に基づいている。
論文参考訳（メタデータ） (2025-07-29T03:51:00Z)
SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting [59.14029549151904]
エンドツーエンドテキストスポッティング,すなわちSemiETSのための新しいセミ教師付きフレームワークを提案する。具体的には、各タスクの信頼性の高い階層的な擬似ラベルを徐々に生成し、ノイズの多いラベルを減らす。双方向の流れから位置や転写の重要な情報を抽出し、一貫性を向上させる。
論文参考訳（メタデータ） (2025-04-14T08:09:17Z)
QUAD-LLM-MLTC: Large Language Models Ensemble Learning for Healthcare Text Multi-Label Classification [4.8342038441006805]
収集された医療用テキストデータのエスカレート量は、テキスト分類を自動化する上でユニークな課題である。従来の機械学習モデルは、表現されたトピックの配列を完全にキャプチャできないことが多い。大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて顕著な効果を示した。
論文参考訳（メタデータ） (2025-02-20T01:46:12Z)
Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-06-20T18:35:47Z)
MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。 MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。 2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文参考訳（メタデータ） (2023-10-24T20:08:15Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文参考訳（メタデータ） (2022-11-15T13:07:02Z)
Active Transfer Prototypical Network: An Efficient Labeling Algorithm for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文参考訳（メタデータ） (2022-09-28T16:14:40Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
To BERT or Not to BERT: Comparing Task-specific and Task-agnostic Semi-Supervised Approaches for Sequence Tagging [46.62643525729018]
クロスビュートレーニング(CVT)とタスクに依存しないBERTをドメインやタスクに関連する英語データを含む複数の設定で比較する。本研究では,一連のタグ付けタスクにおいてBERTと同じような性能を達成し,経済的・環境的影響を低減できることを示す。
論文参考訳（メタデータ） (2020-10-27T04:03:47Z)
Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文参考訳（メタデータ） (2020-10-19T16:53:24Z)
Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文参考訳（メタデータ） (2020-10-07T22:29:05Z)
Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。本手法では,クラス毎に20～30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文参考訳（メタデータ） (2020-06-27T08:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。