論文の概要: Active learning for online training in imbalanced data streams under
cold start
- arxiv url: http://arxiv.org/abs/2107.07724v1
- Date: Fri, 16 Jul 2021 06:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:47:49.239385
- Title: Active learning for online training in imbalanced data streams under
cold start
- Title(参考訳): 冷間開始時の不均衡データストリームにおけるオンライントレーニングのためのアクティブラーニング
- Authors: Ricardo Barata, Miguel Leite, Ricardo Pacheco, Marco O. P. Sampaio,
Jo\~ao Tiago Ascens\~ao, Pedro Bizarro
- Abstract要約: 本稿では,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(AL)アノテーションシステムを提案する。
本稿では,計算効率のよい Outlier-based Discriminative AL approach (ODAL) を提案する。
その結果,提案手法は標準ALポリシーよりも高速に高性能なモデルに到達できることが示唆された。
- 参考スコア(独自算出の注目度): 0.8155575318208631
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Labeled data is essential in modern systems that rely on Machine Learning
(ML) for predictive modelling. Such systems may suffer from the cold-start
problem: supervised models work well but, initially, there are no labels, which
are costly or slow to obtain. This problem is even worse in imbalanced data
scenarios. Online financial fraud detection is an example where labeling is: i)
expensive, or ii) it suffers from long delays, if relying on victims filing
complaints. The latter may not be viable if a model has to be in place
immediately, so an option is to ask analysts to label events while minimizing
the number of annotations to control costs. We propose an Active Learning (AL)
annotation system for datasets with orders of magnitude of class imbalance, in
a cold start streaming scenario. We present a computationally efficient
Outlier-based Discriminative AL approach (ODAL) and design a novel 3-stage
sequence of AL labeling policies where it is used as warm-up. Then, we perform
empirical studies in four real world datasets, with various magnitudes of class
imbalance. The results show that our method can more quickly reach a high
performance model than standard AL policies. Its observed gains over random
sampling can reach 80% and be competitive with policies with an unlimited
annotation budget or additional historical data (with 1/10 to 1/50 of the
labels).
- Abstract(参考訳): ラベル付きデータは、予測モデリングに機械学習(ML)に依存する現代システムにおいて不可欠である。
このようなシステムはコールドスタートの問題に苦しむ可能性がある:教師付きモデルがうまく機能するが、最初はラベルがなく、費用がかかるか遅い。
この問題は、不均衡なデータシナリオにおいてさらに悪化する。
オンラインの金融詐欺検出は、ラベリングが次の例である: i) 高価、またはii) 被害者が苦情を申し立てる場合、長い遅れに苦しむ。
モデルが直ちに実施される必要がある場合、後者は実行できない可能性があるため、コストを制御するアノテーションの数を最小限に抑えながら、アナリストにイベントにラベルを付けるオプションがある。
コールドスタートストリーミングシナリオにおいて,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(al)アノテーションシステムを提案する。
本稿では,計算効率の高い異常値に基づく判別alアプローチ(odal)を提案し,それをウォームアップとして用いる新しい3段階のalラベリングポリシを設計する。
次に,4つの実世界データセットにおいて,クラス不均衡の様々な等級で実証研究を行う。
その結果,本手法は標準alポリシーよりも高速に高性能モデルに到達できることがわかった。
ランダムサンプリングに対する観察された利益は80%に達し、無制限の注釈予算や追加の履歴データ(ラベルの1/10から1/50)を持つポリシーと競合する。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Bridging the Gap: Learning Pace Synchronization for Open-World Semi-Supervised Learning [44.91863420044712]
オープンワールドの半教師付き学習において、機械学習モデルはラベルなしのデータから新しいカテゴリを明らかにすることを任務とする。
本稿では,(1)モデル偏差を軽減するためにクラス固有の負のマージンを課するアダプティブ・コミュニケート・ラミナル・ロス,(2)モデルによって予測される擬似ラベルを利用した擬似ラベル・コントラッシブ・クラスタリングについて紹介する。
本手法は,授業の学習速度のバランスを保ち,画像Netデータセットの平均精度を3%向上させる。
論文 参考訳(メタデータ) (2023-09-21T09:44:39Z) - Online Label Shift: Optimal Dynamic Regret meets Practical Algorithms [33.61487362513345]
本稿では、教師付きおよび教師なしのオンラインラベルシフトに焦点を当て、クラス境界の$Q(y)$は異なるが、クラス条件の$Q(x|y)$は不変である。
教師なしの環境では、オフラインラベル付きデータに基づいてトレーニングされた学習者を、ラベルなしのオンラインデータに対してラベル分布を変更するように適応させることが目的です。
我々は,オンライン回帰への適応問題を低減し,ラベル分布のドリフトの程度を事前に知ることなく,最適な動的後悔を保証する新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-31T05:39:52Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Online Fairness-Aware Learning with Imbalanced Data Streams [9.481178205985396]
ストリーム上で有効かつ公平な分類を行うオンラインフェアネスアウェアアプローチとして,我々の提案する手法を提案する。
ウエーシスは オンライン・ブーピング・アプローチだ トレーニング・ディストリビューションを オンライン・スタイルで変更する ストリームのクラス不均衡を監視して
8つの実世界と1つの合成データセットの実験は、最先端の公正なストリームアプローチよりも、我々の手法が優れていることを示す。
論文 参考訳(メタデータ) (2021-08-13T13:31:42Z) - Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。
予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文 参考訳(メタデータ) (2020-10-14T09:00:42Z) - On the Importance of Adaptive Data Collection for Extremely Imbalanced
Pairwise Tasks [94.23884467360521]
我々は、QQPとWikiQAでトレーニングされた最先端技術モデルが、現実的に不均衡なテストデータで評価された場合、それぞれ平均精度が2.4%しか持たないことを示した。
より有益なネガティブな例でバランスのとれたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5%、WikiQAで20.1%に大幅に改善する。
論文 参考訳(メタデータ) (2020-10-10T21:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。