論文の概要: Improve Cost Efficiency of Active Learning over Noisy Dataset
- arxiv url: http://arxiv.org/abs/2403.01346v1
- Date: Sat, 2 Mar 2024 23:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:09:41.060131
- Title: Improve Cost Efficiency of Active Learning over Noisy Dataset
- Title(参考訳): ノイズデータセットによる能動学習のコスト効率向上
- Authors: Zan-Kai Chong, Hiroyuki Ohsaki, and Bryan Ng
- Abstract要約: 本稿では,正のインスタンスの取得が負のインスタンスに比べて著しくコストがかかる二項分類の事例について考察する。
本研究では,典型的な不確実性サンプリングよりも広い範囲からサンプルをサンプリングする正規分布サンプリング関数を提案する。
我々のシミュレーションは,提案したサンプリング関数がノイズと正のラベル選択を制限し,20%から32%のコスト効率が異なるテストデータセットよりも向上したことを示している。
- 参考スコア(独自算出の注目度): 1.3846014191157405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning is a learning strategy whereby the machine learning algorithm
actively identifies and labels data points to optimize its learning. This
strategy is particularly effective in domains where an abundance of unlabeled
data exists, but the cost of labeling these data points is prohibitively
expensive. In this paper, we consider cases of binary classification, where
acquiring a positive instance incurs a significantly higher cost compared to
that of negative instances. For example, in the financial industry, such as in
money-lending businesses, a defaulted loan constitutes a positive event leading
to substantial financial loss. To address this issue, we propose a shifted
normal distribution sampling function that samples from a wider range than
typical uncertainty sampling. Our simulation underscores that our proposed
sampling function limits both noisy and positive label selection, delivering
between 20% and 32% improved cost efficiency over different test datasets.
- Abstract(参考訳): アクティブな学習は、機械学習アルゴリズムがデータポイントを積極的に識別し、ラベル付けして学習を最適化する学習戦略である。
この戦略は、ラベルのないデータが多数存在するドメインでは特に有効であるが、これらのデータポイントをラベル付けするコストは違法に高価である。
本稿では,正のインスタンスを取得すると負のインスタンスに比べてかなり高いコストがかかる二分分類の事例について考察する。
例えば、金融業界、例えば貸金業のような金融業界では、デフォルトローンは、実質的な金融損失につながるポジティブな出来事である。
そこで本研究では,従来の不確実性サンプリングよりも広い範囲からサンプルを抽出できるシフト正規分布サンプリング関数を提案する。
提案手法では,提案するサンプリング関数は雑音と正のラベル選択を制限し,異なるテストデータセットに対するコスト効率が20%から32%向上することを示す。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Fair Active Learning in Low-Data Regimes [22.349886628823125]
機械学習の応用においては、社会的不平等の持続を避けるために公正性の確保が不可欠である。
本研究では,データスカース環境におけるバイアスの低減と精度向上という課題に対処する。
本稿では,後方サンプリングにインスパイアされた探索手法と,公平な分類サブルーチンを組み合わせた,革新的なアクティブラーニングフレームワークを提案する。
この枠組みは,確率の高い公正制約を満足しつつ,精度を最大化しながら,非常にデータ量の多い状況下で効果的に機能することが実証された。
論文 参考訳(メタデータ) (2023-12-13T23:14:55Z) - Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics
for Data Selection [0.8192907805418583]
我々は,「有用性」や「難易度」について,将来的なトレーニング事例を評価する方法を提案する。
主にエントロピーとError L2-Norm(EL2N)のスコアを実験した。
次に、これらの非同定データセットを用いてトレーニングデータ拡張実験を行い、スコアベースの選択が、ランダム選択のベースライン技術と比較して、意味的誤り率2%、ドメイン分類エラー率4%-7%の減少をもたらすことを示した。
論文 参考訳(メタデータ) (2023-11-27T20:33:54Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Deep Active Learning with Budget Annotation [0.0]
本稿では,インスタンスの不確実性と情報性の両方を計算するためのハイブリッドアプローチを提案する。
我々は、これらのモデルにすでに含まれている情報に対する問い合わせを避けるために、最先端の事前訓練モデルを採用する。
論文 参考訳(メタデータ) (2022-07-31T20:20:44Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Cost-Based Budget Active Learning for Deep Learning [0.9732863739456035]
予算に制約のある集団における分類の不確実性やインスタンスの多様性を考慮したコストベースのバグデットアクティブラーニング(CBAL)を提案する。
min-maxに基づく原則的アプローチは、選択されたインスタンスのラベル付けと決定コストを最小化すると考えられる。
論文 参考訳(メタデータ) (2020-12-09T17:42:44Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Toward Optimal Probabilistic Active Learning Using a Bayesian Approach [4.380488084997317]
アクティブラーニングは、コストの高いラベリングリソースを効率よく効果的に割り当てることで、ラベリングコストを削減することを目的としている。
提案したモデルにおける既存の選択戦略を再構築することにより、どの側面が現在の最先端に包含されていないかを説明することができる。
論文 参考訳(メタデータ) (2020-06-02T15:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。