論文の概要: Uniform versus uncertainty sampling: When being active is less efficient
than staying passive
- arxiv url: http://arxiv.org/abs/2212.00772v1
- Date: Thu, 1 Dec 2022 18:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:47:59.008459
- Title: Uniform versus uncertainty sampling: When being active is less efficient
than staying passive
- Title(参考訳): 一様対不確実性サンプリング:アクティブな場合、受動的にとどまるより効率が低い
- Authors: Alexandru Tifrea, Jacob Clarysse, Fanny Yang
- Abstract要約: 不確実性サンプリングのようなアクティブな学習アルゴリズムは受動的学習よりも予測性能がよいと広く信じられている。
最近の実証的な証拠は、不確実性サンプリングが受動的学習よりもさらに悪い結果をもたらすことがあるため、この追加コストが無駄である可能性を示唆している。
- 参考スコア(独自算出の注目度): 76.71565772067113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely believed that given the same labeling budget, active learning
algorithms like uncertainty sampling achieve better predictive performance than
passive learning (i.e. uniform sampling), albeit at a higher computational
cost. Recent empirical evidence suggests that this added cost might be in vain,
as uncertainty sampling can sometimes perform even worse than passive learning.
While existing works offer different explanations in the low-dimensional
regime, this paper shows that the underlying mechanism is entirely different in
high dimensions: we prove for logistic regression that passive learning
outperforms uncertainty sampling even for noiseless data and when using the
uncertainty of the Bayes optimal classifier. Insights from our proof indicate
that this high-dimensional phenomenon is exacerbated when the separation
between the classes is small. We corroborate this intuition with experiments on
20 high-dimensional datasets spanning a diverse range of applications, from
finance and histology to chemistry and computer vision.
- Abstract(参考訳): 同じラベル付け予算から、不確実性サンプリングのようなアクティブな学習アルゴリズムは、計算コストが高いにもかかわらず、受動的学習(一様サンプリング)よりも予測性能が良いと広く信じられている。
最近の実証的な証拠は、不確実性サンプリングが受動的学習よりもさらに悪い結果をもたらすことがあるため、この追加コストが無駄である可能性を示唆している。
既存の研究は低次元環境において異なる説明を提供するが、基礎となるメカニズムは高次元において全く異なることを証明している: パッシブ学習がノイズのないデータにおいても不確実性サンプリングよりも優れており、ベイズ最適分類器の不確実性を使用している場合、不確実性サンプリングよりも優れていることを証明する。
この証明からの洞察は、クラス間の分離が小さいと、この高次元現象が悪化することを示している。
この直感は、ファイナンスや組織学、化学、コンピュータビジョンなど、さまざまな応用にまたがる20の高次元データセットの実験と相関する。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Improve Cost Efficiency of Active Learning over Noisy Dataset [1.3846014191157405]
本稿では,正のインスタンスの取得が負のインスタンスに比べて著しくコストがかかる二項分類の事例について考察する。
本研究では,典型的な不確実性サンプリングよりも広い範囲からサンプルをサンプリングする正規分布サンプリング関数を提案する。
我々のシミュレーションは,提案したサンプリング関数がノイズと正のラベル選択を制限し,20%から32%のコスト効率が異なるテストデータセットよりも向上したことを示している。
論文 参考訳(メタデータ) (2024-03-02T23:53:24Z) - Direct Acquisition Optimization for Low-Budget Active Learning [15.355195433709717]
アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
本稿では,従来のALアルゴリズムの低予算環境での性能劣化を実証的に観察する。
そこで我々は,期待される真の損失削減に基づくサンプル選択を最適化する新しいALアルゴリズムであるDAO(Direct Acquisition Optimization)を導入する。
論文 参考訳(メタデータ) (2024-02-08T20:36:21Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - An Exponential Lower Bound for Linearly-Realizable MDPs with Constant
Suboptimality Gap [66.75488143823337]
また, 指数的標本複雑度は, 一定の準最適ギャップを仮定しても, 未だに保持していることを示した。
おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。
論文 参考訳(メタデータ) (2021-03-23T17:05:54Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。