論文の概要: Active Learning for Skewed Data Sets
- arxiv url: http://arxiv.org/abs/2005.11442v1
- Date: Sat, 23 May 2020 01:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 03:18:28.469329
- Title: Active Learning for Skewed Data Sets
- Title(参考訳): スキューデータセットのためのアクティブラーニング
- Authors: Abbas Kazerouni and Qi Zhao and Jing Xie and Sandeep Tata and Marc
Najork
- Abstract要約: 重度のクラス不均衡(スキュー)と少数の初期訓練データという2つの特徴を持つ問題に焦点をあてる。
本研究では,現在ラベル付けされているトレーニング例を通じて利用可能な知識を活用できるハイブリッド能動学習アルゴリズム(HAL)を提案する。
- 参考スコア(独自算出の注目度): 25.866341631677688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a sequential active learning problem where, at each round, an agent
selects a batch of unlabeled data points, queries their labels and updates a
binary classifier. While there exists a rich body of work on active learning in
this general form, in this paper, we focus on problems with two distinguishing
characteristics: severe class imbalance (skew) and small amounts of initial
training data. Both of these problems occur with surprising frequency in many
web applications. For instance, detecting offensive or sensitive content in
online communities (pornography, violence, and hate-speech) is receiving
enormous attention from industry as well as research communities. Such problems
have both the characteristics we describe -- a vast majority of content is not
offensive, so the number of positive examples for such content is orders of
magnitude smaller than the negative examples. Furthermore, there is usually
only a small amount of initial training data available when building
machine-learned models to solve such problems. To address both these issues, we
propose a hybrid active learning algorithm (HAL) that balances exploiting the
knowledge available through the currently labeled training examples with
exploring the large amount of unlabeled data available. Through simulation
results, we show that HAL makes significantly better choices for what points to
label when compared to strong baselines like margin-sampling. Classifiers
trained on the examples selected for labeling by HAL easily out-perform the
baselines on target metrics (like area under the precision-recall curve) given
the same budget for labeling examples. We believe HAL offers a simple,
intuitive, and computationally tractable way to structure active learning for a
wide range of machine learning applications.
- Abstract(参考訳): 各ラウンドで、エージェントがラベルのないデータポイントのバッチを選択し、ラベルをクエリし、バイナリ分類器を更新する、シーケンシャルなアクティブな学習問題を考える。
本論文では,本論文では,アクティブラーニングに関する研究が豊富に行われているが,重度クラス不均衡(skew)と少量の初期トレーニングデータという2つの特徴を持つ問題に焦点を当てている。
これらの問題は、多くのwebアプリケーションで驚くべき頻度で発生します。
例えば、オンラインコミュニティ(ポルノ、暴力、ヘイトスピーチ)における攻撃的またはセンシティブなコンテンツの検出は、業界や研究コミュニティから大きな注目を集めている。
コンテンツの大部分は攻撃的ではないので、そのようなコンテンツに対する肯定的な例の数は、負の例よりも桁違いに小さい。
さらに、そのような問題を解決するために機械学習モデルを構築する場合、通常は少量の初期訓練データしか存在しない。
これらの問題に対処するために,現在ラベル付けされているトレーニング例を通じて利用可能な知識を活用し,利用可能な大量のラベル付きデータを探索するハイブリッドアクティブラーニングアルゴリズム(hal)を提案する。
シミュレーションの結果から,HALはマージンサンプリングのような強力なベースラインと比較して,ラベル付けするポイントに対して,より優れた選択を行うことが示された。
HALによってラベル付けのために選択された例に基づいて訓練された分類器は、サンプルのラベル付けに同じ予算を与えられたターゲットメトリクス(精度-リコール曲線下の領域など)の基準線を容易に上回る。
halは、さまざまな機械学習アプリケーションに対して、アクティブラーニングを構築するためのシンプルで直感的で、計算が容易な方法を提供すると信じています。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - DIRECT: Deep Active Learning under Imbalance and Label Noise [15.571923343398657]
我々は,クラス不均衡とラベルノイズの両面において,アクティブラーニングの最初の研究を行う。
本稿では,クラス分離閾値を頑健に同定し,最も不確実な例を注釈する新しいアルゴリズムを提案する。
以上の結果から,DIRECTは最先端のアクティブ学習アルゴリズムと比較して,アノテーション予算の60%以上を節約できることが示された。
論文 参考訳(メタデータ) (2023-12-14T18:18:34Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - L2B: Learning to Bootstrap Robust Models for Combating Label Noise [52.02335367411447]
本稿では,Learning to Bootstrap (L2B) という,シンプルで効果的な手法を提案する。
モデルは、誤った擬似ラベルの影響を受けずに、自身の予測を使ってブートストラップを行うことができる。
これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。
論文 参考訳(メタデータ) (2022-02-09T05:57:08Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Deep Active Learning via Open Set Recognition [0.0]
多くのアプリケーションでは、データは簡単に取得できるが、顕著な例を示すのに高価で時間がかかる。
オープンセット認識問題として能動的学習を定式化する。
現在のアクティブな学習方法とは異なり、我々のアルゴリズムはタスクラベルを必要とせずにタスクを学習することができる。
論文 参考訳(メタデータ) (2020-07-04T22:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。