論文の概要: An Analysis of Active Learning Algorithms using Real-World Crowd-sourced Text Annotations
- arxiv url: http://arxiv.org/abs/2604.23290v1
- Date: Sat, 25 Apr 2026 13:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.255143
- Title: An Analysis of Active Learning Algorithms using Real-World Crowd-sourced Text Annotations
- Title(参考訳): 実世界のクラウドソーステキストアノテーションを用いたアクティブ学習アルゴリズムの解析
- Authors: Varun Totakura, Ankita Singh, Yushun Dong, Shayok Chakraborty,
- Abstract要約: アクティブな学習アルゴリズムは、大量の未ラベルデータから最も情報に富むサンプルを自動的に識別する。
ノイズの多いオークルを用いたアクティブラーニングに関する既存の研究は、通常、機械学習モデルを使用してオークルをシミュレートする。
本研究では,まず3つのベンチマークテキスト分類データセットからテキストサンプルのアノテーションを収集する。
- 参考スコア(独自算出の注目度): 19.453809893120184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning algorithms automatically identify the most informative samples from large amounts of unlabeled data and tremendously reduce human annotation effort in inducing a machine learning model. In a conventional active learning setup, the labeling oracles are assumed to be infallible, that is, they always provide correct answers (in terms of class labels) to the queried unlabeled instances, which cannot be guaranteed in real-world applications. To this end, a body of research has focused on the development of active learning algorithms in the presence of imperfect / noisy oracles. Existing research on active learning with noisy oracles typically simulate the oracles using machine learning models; however, real-world situations are much more challenging, and using ML models to simulate the annotation patterns may not appropriately capture the nuances of real-world annotation challenges. In this research, we first collect annotations of text samples (from 3 benchmark text classification datasets) from crowd-sourced workers through a crowd-sourcing platform. We then conduct extensive empirical studies of 8 commonly used active learning techniques (in conjunction with deep neural networks) using the obtained annotations. Our analyses sheds light on the performance of these techniques under real-world challenges, where annotators can provide incorrect labels, and can also refuse to provide labels. We hope this research will provide valuable insights that will be useful for the deployment of deep active learning systems in real-world applications. The obtained annotations can be accessed at https://github.com/varuntotakura/al_rcta/.
- Abstract(参考訳): アクティブな学習アルゴリズムは、大量のラベルのないデータから最も情報に富んだサンプルを自動的に識別し、機械学習モデルを誘導する人間のアノテーションの労力を大幅に削減します。
従来のアクティブ・ラーニング・セットアップでは、ラベリング・オラクルは不確定であると仮定され、実際のアプリケーションでは保証できない、クエリされた未ラベルのインスタンスに対して、常に正しい回答(クラスラベルの観点で)を提供する。
この目的のために、研究機関は、不完全/ノイズの多いオラクルの存在下でのアクティブな学習アルゴリズムの開発に焦点を合わせてきた。
既存のノイズの多いオラクルによるアクティブラーニングの研究は、通常、機械学習モデルを使用してオラクルをシミュレートするが、現実の状況ははるかに困難であり、アノテーションパターンをシミュレートするためにMLモデルを使用することは、現実のアノテーション課題のニュアンスを適切に捉えない可能性がある。
本研究では,クラウドソーシングプラットフォームを通じて,クラウドソーシング作業者のテキストサンプル(3つのベンチマークテキスト分類データセットから)のアノテーションを収集する。
次に、得られたアノテーションを用いて、8つの一般的なアクティブラーニング手法(ディープニューラルネットワークと併用)の広範な実証的研究を行った。
我々の分析は、アノテータが間違ったラベルを提供し、またラベルの提供を拒否できる現実世界の課題の下で、これらの技術の性能に光を当てている。
この研究は、現実世界のアプリケーションに深いアクティブな学習システムを展開する上で有用な、貴重な洞察を提供することを期待しています。
得られたアノテーションはhttps://github.com/varuntotakura/al_rcta/でアクセスできる。
関連論文リスト
- Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems [0.6267574471145215]
本稿では,現代のAIシステムに適用可能な,新たなアクティブラーニングフレームワークを提案する。
従来のアクティブな学習手法とは違い、どのデータポイントにラベルを付けるべきかを判断することのみに重点を置いているのに対し、我々のフレームワークは異なるクエリスキームを組み込むという革新的な視点も導入しています。
提案する能動学習フレームワークは,他の手法と比較して精度が高く,損失も少ない。
論文 参考訳(メタデータ) (2024-12-31T05:12:51Z) - BOWL: A Deceptively Simple Open World Learner [20.856520787551453]
従来の機械学習は静的なベンチマークに優れていますが、現実の世界は動的であり、テストセットと同じくらい慎重にキュレートされることはめったにありません。
本稿では,ニューラルネットワークにはすでに,オープンワールド学習者になるための強力な触媒が備わっていると仮定する。
本手法は,分布内および分布外サンプルを検出し,情報的データポイントを選択し,モデルを継続的に更新するための効果的な戦略を導出する。
論文 参考訳(メタデータ) (2024-02-07T13:04:35Z) - Unleashing the Potential of Regularization Strategies in Learning with
Noisy Labels [65.92994348757743]
クロスエントロピー損失を用いた単純なベースラインと、広く使われている正規化戦略を組み合わせることで、最先端の手法より優れていることを示す。
この結果から,正規化戦略の組み合わせは,ノイズラベルを用いた学習の課題に対処する上で,複雑なアルゴリズムよりも効果的であることが示唆された。
論文 参考訳(メタデータ) (2023-07-11T05:58:20Z) - Evaluating Zero-cost Active Learning for Object Detection [4.106771265655055]
オブジェクト検出には、ロバストなモデルを学習するためにかなりのラベル付け作業が必要である。
アクティブラーニングは、アノテートすべき関連するサンプルをインテリジェントに選択することで、この労力を減らすことができる。
重要成分は, 境界ボックスレベルのスコアだけでなく, ランキング画像のスコアを集約するためのテクニックも示している。
論文 参考訳(メタデータ) (2022-12-08T11:48:39Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。