論文の概要: Towards Comparable Active Learning
- arxiv url: http://arxiv.org/abs/2311.18356v1
- Date: Thu, 30 Nov 2023 08:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:16:12.443381
- Title: Towards Comparable Active Learning
- Title(参考訳): 比較可能なアクティブラーニングを目指して
- Authors: Thorben Werner, Johannes Burchert, Lars Schmidt-Thieme
- Abstract要約: 近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。
本稿では,様々なタスクや領域にまたがるアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,評価のための高速で実行可能なオラクルアルゴリズムを提供することにより,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 6.579888565581481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active Learning has received significant attention in the field of machine
learning for its potential in selecting the most informative samples for
labeling, thereby reducing data annotation costs. However, we show that the
reported lifts in recent literature generalize poorly to other domains leading
to an inconclusive landscape in Active Learning research. Furthermore, we
highlight overlooked problems for reproducing AL experiments that can lead to
unfair comparisons and increased variance in the results. This paper addresses
these issues by providing an Active Learning framework for a fair comparison of
algorithms across different tasks and domains, as well as a fast and performant
oracle algorithm for evaluation. To the best of our knowledge, we propose the
first AL benchmark that tests algorithms in 3 major domains: Tabular, Image,
and Text. We report empirical results for 6 widely used algorithms on 7
real-world and 2 synthetic datasets and aggregate them into a domain-specific
ranking of AL algorithms.
- Abstract(参考訳): アクティブラーニングは、ラベル付けのための最も有益なサンプルを選択する可能性から、機械学習の分野で大きな注目を集めており、データアノテーションコストを削減している。
しかし、近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。
さらに,不公平な比較と結果のばらつきを招く可能性があるal実験を再現する上で,見過ごされた問題を浮き彫りにする。
本稿では,さまざまなタスクとドメイン間のアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,高速かつ高性能なoracle評価アルゴリズムを提供することで,これらの問題に対処する。
我々の知る限り、我々はアルゴリズムを3つの主要なドメイン(タブラリ、イメージ、テキスト)でテストする最初のALベンチマークを提案する。
7つの実世界と2つの合成データセットで広く使われている6つのアルゴリズムについて実験結果を報告する。
関連論文リスト
- RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - A Cross-Domain Benchmark for Active Learning [5.359176539960004]
Active Learningは、データアノテーションのコストを削減するためにラベル付けの最も有益なサンプルを特定する。
コンピュータビジョンと自然言語処理のタスクを含む最初のアクティブラーニングベンチマークであるCDALBenchを提案する。
AL研究の高度評価には,クロスドメインキャラクタと大量の繰り返しが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-08-01T09:57:48Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - DIRECT: Deep Active Learning under Imbalance and Label Noise [15.571923343398657]
我々は,クラス不均衡とラベルノイズの両面において,アクティブラーニングの最初の研究を行う。
本稿では,クラス分離閾値を頑健に同定し,最も不確実な例を注釈する新しいアルゴリズムを提案する。
以上の結果から,DIRECTは最先端のアクティブ学習アルゴリズムと比較して,アノテーション予算の60%以上を節約できることが示された。
論文 参考訳(メタデータ) (2023-12-14T18:18:34Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。