論文の概要: On the Fragility of Active Learners
- arxiv url: http://arxiv.org/abs/2403.15744v1
- Date: Sat, 23 Mar 2024 07:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:12:36.480132
- Title: On the Fragility of Active Learners
- Title(参考訳): 能動学習者の脆弱性について
- Authors: Abhishek Ghose, Emma Nguyen,
- Abstract要約: アクティブラーニング(AL)技術は、予測精度を向上させる可能性が最も高いインスタンスを反復的に選択することで、ラベル付け予算を最大限に活用することを目的としている。
本研究では,異なる要因の組み合わせがAL手法から得られる利益を如何に隠蔽するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning (AL) techniques aim to maximally utilize a labeling budget by iteratively selecting instances that are most likely to improve prediction accuracy. However, their benefit compared to random sampling has not been consistent across various setups, e.g., different datasets, classifiers. In this empirical study, we examine how a combination of different factors might obscure any gains from an AL technique. Focusing on text classification, we rigorously evaluate AL techniques over around 1000 experiments that vary wrt the dataset, batch size, text representation and the classifier. We show that AL is only effective in a narrow set of circumstances. We also address the problem of using metrics that are better aligned with real world expectations. The impact of this study is in its insights for a practitioner: (a) the choice of text representation and classifier is as important as that of an AL technique, (b) choice of the right metric is critical in assessment of the latter, and, finally, (c) reported AL results must be holistically interpreted, accounting for variables other than just the query strategy.
- Abstract(参考訳): アクティブラーニング(AL)技術は、予測精度を向上させる可能性が最も高いインスタンスを反復的に選択することで、ラベル付け予算を最大限に活用することを目的としている。
しかし、ランダムサンプリングと比較した場合の利点は、例えば、異なるデータセット、分類器など、さまざまな設定で一致していない。
本研究では,異なる要因の組み合わせがAL手法から得られる利益を如何に隠蔽するかを実験的に検討する。
テキスト分類に着目し,データセット,バッチサイズ,テキスト表現,分類器など,約1000の実験からAL手法を厳格に評価する。
ALは限られた状況下でのみ有効であることを示す。
また、現実世界の期待に合うようなメトリクスを使用するという問題にも対処しています。
この研究の影響は、実践者にとっての洞察にある。
(a)テキスト表現と分類器の選択はAL技術と同じくらい重要である。
b) 正しい計量の選択は後者の評価において重要であり、最後に
(c) AL結果の報告は、クエリ戦略以外の変数を考慮し、論理的に解釈されなければならない。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Navigating the Pitfalls of Active Learning Evaluation: A Systematic
Framework for Meaningful Performance Assessment [3.3064235071867856]
アクティブラーニング(AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。
半教師型(Semi-SL)や自己教師型学習(Self-SL)のような新興パラダイムと比較して、ALの有効性を疑問視する研究もある。
論文 参考訳(メタデータ) (2023-01-25T15:07:44Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。