論文の概要: On the Limitations of Simulating Active Learning
- arxiv url: http://arxiv.org/abs/2305.13342v1
- Date: Sun, 21 May 2023 22:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:08:15.484211
- Title: On the Limitations of Simulating Active Learning
- Title(参考訳): アクティブラーニングシミュレーションの限界について
- Authors: Katerina Margatina and Nikolaos Aletras
- Abstract要約: アクティブラーニング(アクティブラーニング、英: Active Learning、AL)は、人間のアノテーションのための情報的未ラベルデータを反復的に選択する、ヒューマン・アンド・モデル・イン・ザ・ループのパラダイムである。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
- 参考スコア(独自算出の注目度): 32.34440406689871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning (AL) is a human-and-model-in-the-loop paradigm that
iteratively selects informative unlabeled data for human annotation, aiming to
improve over random sampling. However, performing AL experiments with human
annotations on-the-fly is a laborious and expensive process, thus unrealistic
for academic research. An easy fix to this impediment is to simulate AL, by
treating an already labeled and publicly available dataset as the pool of
unlabeled data. In this position paper, we first survey recent literature and
highlight the challenges across all different steps within the AL loop. We
further unveil neglected caveats in the experimental setup that can
significantly affect the quality of AL research. We continue with an
exploration of how the simulation setting can govern empirical findings,
arguing that it might be one of the answers behind the ever posed question
``why do active learning algorithms sometimes fail to outperform random
sampling?''. We argue that evaluating AL algorithms on available labeled
datasets might provide a lower bound as to their effectiveness in real data. We
believe it is essential to collectively shape the best practices for AL
research, particularly as engineering advancements in LLMs push the research
focus towards data-driven approaches (e.g., data efficiency, alignment,
fairness). In light of this, we have developed guidelines for future work. Our
aim is to draw attention to these limitations within the community, in the hope
of finding ways to address them.
- Abstract(参考訳): アクティブラーニング(英: Active Learning, AL)は、ランダムサンプリングよりも改善することを目的として、人間のアノテーションに対する情報的未ラベルデータを反復的に選択する。
しかし、人間のアノテーションをオンザフライで実験することは手間と費用がかかるプロセスであり、学術研究には非現実的である。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
本稿では,最近の文献を最初に調査し,alループ内の様々なステップにおける課題を強調する。
我々はさらに、AL研究の質に大きく影響を与える実験装置における無視された注意点を明らかにした。
私たちは、シミュレーション設定が経験的発見をどのように支配するかを探究し続け、それが「なぜアクティブな学習アルゴリズムは時々ランダムサンプリングを上回らないのか」という疑問の背後にある答えの1つかもしれないと論じている。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
LLMの工学的進歩が研究をデータ駆動アプローチ(例えば、データ効率、アライメント、公正性)へと押し上げるにつれて、AL研究のベストプラクティスをまとめることが不可欠であると考えています。
これを踏まえ、我々は将来の作業のためのガイドラインを開発しました。
私たちの目標は、コミュニティ内のこれらの制限に注意を払って、それらに対処する方法を見つけ出すことです。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Navigating the Pitfalls of Active Learning Evaluation: A Systematic
Framework for Meaningful Performance Assessment [3.3064235071867856]
アクティブラーニング(AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。
半教師型(Semi-SL)や自己教師型学習(Self-SL)のような新興パラダイムと比較して、ALの有効性を疑問視する研究もある。
論文 参考訳(メタデータ) (2023-01-25T15:07:44Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - A Comparative Survey of Deep Active Learning [76.04825433362709]
Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。
ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。
近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
論文 参考訳(メタデータ) (2022-03-25T05:17:24Z) - Active Learning-Based Optimization of Scientific Experimental Design [1.9705094859539976]
Active Learning(AL)は、ラベル付きトレーニングインスタンスを少なくすることで、より精度の高い機械学習アルゴリズムである。
本稿では,提案したALスキームを用いた薬物応答データセットの振り返り研究を行う。
これは、手動で設定するのではなく、科学的な実験設計がALによって最適化可能であることを示している。
論文 参考訳(メタデータ) (2021-12-29T20:02:35Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Towards Robust and Reproducible Active Learning Using Neural Networks [15.696979318409392]
アクティブラーニング(AL)は、大きなラベルのないデータを解析する可能性を持つ、有望なMLパラダイムである。
近年、ニューラルネットワークに基づくAL手法が、ラベル付けデータを禁止可能な領域におけるアノテーションコストの削減に有効である。
本研究では,異なるタイプのALアルゴリズムがランダムサンプリングベースラインよりも不整合ゲインを生み出すことを示す。
論文 参考訳(メタデータ) (2020-02-21T22:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。