論文の概要: Neural Active Learning on Heteroskedastic Distributions
- arxiv url: http://arxiv.org/abs/2211.00928v1
- Date: Wed, 2 Nov 2022 07:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:25:03.437483
- Title: Neural Active Learning on Heteroskedastic Distributions
- Title(参考訳): ヘテロケクタスティック分布の神経活動的学習
- Authors: Savya Khosla, Chew Kin Whye, Jordan T. Ash, Cyril Zhang, Kenji
Kawaguchi, Alex Lamb
- Abstract要約: 最先端のアクティブラーニング技術は、分類するのが最も難しい例を好む傾向にある。
ヘテロスケダスティックデータセット上でのこれらのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んだ新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 29.01776999862397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models that can actively seek out the best quality training data hold the
promise of more accurate, adaptable, and efficient machine learning.
State-of-the-art active learning techniques tend to prefer examples that are
the most difficult to classify. While this works well on homogeneous datasets,
we find that it can lead to catastrophic failures when performed on multiple
distributions with different degrees of label noise or heteroskedasticity.
These active learning algorithms strongly prefer to draw from the distribution
with more noise, even if their examples have no informative structure (such as
solid color images with random labels). To this end, we demonstrate the
catastrophic failure of these active learning algorithms on heteroskedastic
distributions and propose a fine-tuning-based approach to mitigate these
failures. Further, we propose a new algorithm that incorporates a model
difference scoring function for each data point to filter out the noisy
examples and sample clean examples that maximize accuracy, outperforming the
existing active learning techniques on the heteroskedastic datasets. We hope
these observations and techniques are immediately helpful to practitioners and
can help to challenge common assumptions in the design of active learning
algorithms.
- Abstract(参考訳): 最高品質のトレーニングデータを積極的に探せるモデルは、より正確で適応性があり、効率的な機械学習の可能性を秘めている。
最先端のアクティブラーニング技術は、分類するのが最も難しい例を好む傾向にある。
これは均一なデータセットでうまく機能するが、ラベルノイズやヘテロスケダスティック性が異なる複数の分布で実行された場合、破滅的な障害を引き起こす可能性がある。
これらのアクティブな学習アルゴリズムは、例えばランダムなラベルを持つ固体カラー画像のような)情報構造を持たない場合でも、よりノイズの多い分布から引き出すことを強く望んでいる。
そこで本研究では,これらアクティブ学習アルゴリズムのヘテロセクタスティック分布における破壊的失敗を実証し,これらの障害を軽減するための微調整に基づくアプローチを提案する。
さらに,データポイント毎にモデル差スコアリング機能を組み込んだ新しいアルゴリズムを提案し,ノイズの多いサンプルをフィルタリングし,精度を最大化するクリーンサンプルを抽出し,既存のアクティブラーニング手法をヘテロスケクタスティックデータセットで上回らせる手法を提案する。
これらの観察とテクニックが実践者にとってすぐに役に立ち、アクティブラーニングアルゴリズムの設計において共通の仮定に挑戦できることを願っている。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。