論文の概要: Active learning for reducing labeling effort in text classification
tasks
- arxiv url: http://arxiv.org/abs/2109.04847v1
- Date: Fri, 10 Sep 2021 13:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:42:40.268454
- Title: Active learning for reducing labeling effort in text classification
tasks
- Title(参考訳): テキスト分類タスクにおけるラベリング労力削減のためのアクティブラーニング
- Authors: Pieter Floris Jacobs, Gideon Maillette de Buy Wenniger, Marco Wiering,
Lambert Schomaker
- Abstract要約: アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
- 参考スコア(独自算出の注目度): 3.8424737607413153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling data can be an expensive task as it is usually performed manually by
domain experts. This is cumbersome for deep learning, as it is dependent on
large labeled datasets. Active learning (AL) is a paradigm that aims to reduce
labeling effort by only using the data which the used model deems most
informative. Little research has been done on AL in a text classification
setting and next to none has involved the more recent, state-of-the-art NLP
models. Here, we present an empirical study that compares different
uncertainty-based algorithms with BERT$_{base}$ as the used classifier. We
evaluate the algorithms on two NLP classification datasets: Stanford Sentiment
Treebank and KvK-Frontpages. Additionally, we explore heuristics that aim to
solve presupposed problems of uncertainty-based AL; namely, that it is
unscalable and that it is prone to selecting outliers. Furthermore, we explore
the influence of the query-pool size on the performance of AL. Whereas it was
found that the proposed heuristics for AL did not improve performance of AL;
our results show that using uncertainty-based AL with BERT$_{base}$ outperforms
random sampling of data. This difference in performance can decrease as the
query-pool size gets larger.
- Abstract(参考訳): データのラベル付けは通常、ドメインの専門家が手作業で行うため、高価なタスクになる可能性がある。
これは、大きなラベル付きデータセットに依存するため、ディープラーニングには厄介である。
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有用なデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
ALのテキスト分類に関する研究はほとんど行われておらず、最近になって最先端のNLPモデルに関する研究は行われていない。
本稿では,異なる不確実性に基づくアルゴリズムを,使用する分類器としてbert$_{base}$と比較した経験的研究を行う。
我々は,2つのNLP分類データセット(Stanford Sentiment TreebankとKvK-Frontpages)でアルゴリズムを評価する。
さらに,不確実性に基づくalの既定問題を解決することを目的としたヒューリスティックスについて検討する。
さらに,クエリプールサイズがALの性能に与える影響についても検討する。
提案したALのヒューリスティックスではALの性能は向上しなかったが,BERT$_{base}$による不確実性に基づくALはデータのランダムサンプリングに優れていた。
このパフォーマンスの違いは、クエリプールのサイズが大きくなるにつれて減少する可能性がある。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - MetAL: Active Semi-Supervised Learning on Graphs via Meta Learning [2.903711704663904]
分類モデルの将来の性能を直接改善する未ラベルのインスタンスを選択するためのALアプローチであるMetALを提案する。
我々は、MetALが既存の最先端ALアルゴリズムより効率良く優れていることを示す。
論文 参考訳(メタデータ) (2020-07-22T06:59:49Z) - Towards Robust and Reproducible Active Learning Using Neural Networks [15.696979318409392]
アクティブラーニング(AL)は、大きなラベルのないデータを解析する可能性を持つ、有望なMLパラダイムである。
近年、ニューラルネットワークに基づくAL手法が、ラベル付けデータを禁止可能な領域におけるアノテーションコストの削減に有効である。
本研究では,異なるタイプのALアルゴリズムがランダムサンプリングベースラインよりも不整合ゲインを生み出すことを示す。
論文 参考訳(メタデータ) (2020-02-21T22:01:47Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。