論文の概要: On the Fragility of Active Learners for Text Classification
- arxiv url: http://arxiv.org/abs/2403.15744v6
- Date: Fri, 04 Oct 2024 05:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:54.941513
- Title: On the Fragility of Active Learners for Text Classification
- Title(参考訳): テキスト分類のためのアクティブ学習者の脆弱性について
- Authors: Abhishek Ghose, Emma Thuong Nguyen,
- Abstract要約: アクティブラーニング(AL)技術は、学習に最も価値のあるインスタンスを反復的に選択することで、ラベル付け予算を最適に活用する。
データセットに最も適したALアルゴリズムを選択するための所定の基準はない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Active learning (AL) techniques optimally utilize a labeling budget by iteratively selecting instances that are most valuable for learning. However, they lack ``prerequisite checks'', i.e., there are no prescribed criteria to pick an AL algorithm best suited for a dataset. A practitioner must pick a technique they \emph{trust} would beat random sampling, based on prior reported results, and hope that it is resilient to the many variables in their environment: dataset, labeling budget and prediction pipelines. The important questions then are: how often on average, do we expect any AL technique to reliably beat the computationally cheap and easy-to-implement strategy of random sampling? Does it at least make sense to use AL in an ``Always ON'' mode in a prediction pipeline, so that while it might not always help, it never under-performs random sampling? How much of a role does the prediction pipeline play in AL's success? We examine these questions in detail for the task of text classification using pre-trained representations, which are ubiquitous today. Our primary contribution here is a rigorous evaluation of AL techniques, old and new, across setups that vary wrt datasets, text representations and classifiers. This unlocks multiple insights around warm-up times, i.e., number of labels before gains from AL are seen, viability of an ``Always ON'' mode and the relative significance of different factors. Additionally, we release a framework for rigorous benchmarking of AL techniques for text classification.
- Abstract(参考訳): アクティブラーニング(AL)技術は、学習に最も価値のあるインスタンスを反復的に選択することで、ラベル付け予算を最適に活用する。
しかし、それらは '`prerequisite checks''' を欠いている。すなわち、データセットに最も適したALアルゴリズムを選択するための所定の基準はない。
実践者は、事前に報告された結果に基づいて、ランダムサンプリングを破るテクニックを選択し、データセット、予算のラベル付け、予測パイプラインといった、環境内の多くの変数に対してレジリエンスを期待する必要があります。
平均してどのくらいの頻度で、任意のALテクニックが、ランダムサンプリングの計算的安価で実装が容易な戦略を確実に打ち負かすことを期待していますか?
ALを予測パイプラインの‘Always ON’モードで使用するのは,少なくとも意味があるのだろうか?
ALの成功において、予測パイプラインはどの程度の役割を担っていますか?
本稿では,現在ユビキタスな事前学習表現を用いたテキスト分類タスクについて,これらの質問を詳細に検討する。
ここでの私たちの主な貢献は、wrtデータセット、テキスト表現、分類器によって異なるセットアップをまたいだALテクニック、古くて新しい、厳密な評価です。
これはウォームアップ時間に関する複数の洞察、すなわちALからの利得の前にラベルの数、`Always ON'モードの生存可能性、および異なる要因の相対的重要性を解き放つ。
さらに,テキスト分類のためのAL手法の厳密なベンチマークを行うためのフレームワークもリリースした。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - IALE: Imitating Active Learner Ensembles [1.8655840060559172]
本研究では,アクティブな学習サイクルの各段階において,最高の専門家の選択を模倣する模倣学習手法を提案する。
DAGGERを使用して、データセット上でポリシーをトレーニングし、その後、同様のドメインのデータセットに適用します。
論文 参考訳(メタデータ) (2020-07-09T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。