論文の概要: Margin-based sampling in high dimensions: When being active is less
efficient than staying passive
- arxiv url: http://arxiv.org/abs/2212.00772v2
- Date: Fri, 2 Jun 2023 12:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:26:25.731854
- Title: Margin-based sampling in high dimensions: When being active is less
efficient than staying passive
- Title(参考訳): マルチンの高次元サンプリング:アクティブな場合、受動的にとどまるより効率が低い
- Authors: Alexandru Tifrea, Jacob Clarysse, Fanny Yang
- Abstract要約: 最近の経験的証拠は、辺縁に基づくアクティブラーニングが受動的ラーニングよりもさらに悪い結果をもたらす可能性があることを示唆している。
雑音のないデータであっても、PLが利得ベースALより優れていることがロジスティック回帰の証明である。
以上の結果から, この高次元現象は, クラス間の分離が小さい場合に悪化することが示唆された。
- 参考スコア(独自算出の注目度): 76.71565772067113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely believed that given the same labeling budget, active learning
(AL) algorithms like margin-based active learning achieve better predictive
performance than passive learning (PL), albeit at a higher computational cost.
Recent empirical evidence suggests that this added cost might be in vain, as
margin-based AL can sometimes perform even worse than PL. While existing works
offer different explanations in the low-dimensional regime, this paper shows
that the underlying mechanism is entirely different in high dimensions: we
prove for logistic regression that PL outperforms margin-based AL even for
noiseless data and when using the Bayes optimal decision boundary for sampling.
Insights from our proof indicate that this high-dimensional phenomenon is
exacerbated when the separation between the classes is small. We corroborate
this intuition with experiments on 20 high-dimensional datasets spanning a
diverse range of applications, from finance and histology to chemistry and
computer vision.
- Abstract(参考訳): 同じラベル付け予算を考えると、マージンベースのアクティブラーニングのようなアクティブラーニング(al)アルゴリズムは、計算コストが高いにもかかわらず、パッシブラーニング(pl)よりも優れた予測性能を達成すると広く信じられている。
最近の実証的な証拠から、この付加的なコストは、マージンベースのalはplよりもさらに悪くなることがあるため、無駄である可能性が示唆されている。
既存の研究は低次元状態において異なる説明を提供するが、基礎となるメカニズムは高次元では全く異なることを示し、我々はPLがノイズのないデータやサンプリングのためのベイズ最適決定境界を用いても利得ベースALより優れていることをロジスティック回帰として証明する。
この証明からの洞察は、クラス間の分離が小さいと、この高次元現象が悪化することを示している。
この直感は、ファイナンスや組織学、化学、コンピュータビジョンなど、さまざまな応用にまたがる20の高次元データセットの実験と相関する。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Improve Cost Efficiency of Active Learning over Noisy Dataset [1.3846014191157405]
本稿では,正のインスタンスの取得が負のインスタンスに比べて著しくコストがかかる二項分類の事例について考察する。
本研究では,典型的な不確実性サンプリングよりも広い範囲からサンプルをサンプリングする正規分布サンプリング関数を提案する。
我々のシミュレーションは,提案したサンプリング関数がノイズと正のラベル選択を制限し,20%から32%のコスト効率が異なるテストデータセットよりも向上したことを示している。
論文 参考訳(メタデータ) (2024-03-02T23:53:24Z) - Direct Acquisition Optimization for Low-Budget Active Learning [15.355195433709717]
アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
本稿では,従来のALアルゴリズムの低予算環境での性能劣化を実証的に観察する。
そこで我々は,期待される真の損失削減に基づくサンプル選択を最適化する新しいALアルゴリズムであるDAO(Direct Acquisition Optimization)を導入する。
論文 参考訳(メタデータ) (2024-02-08T20:36:21Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - An Exponential Lower Bound for Linearly-Realizable MDPs with Constant
Suboptimality Gap [66.75488143823337]
また, 指数的標本複雑度は, 一定の準最適ギャップを仮定しても, 未だに保持していることを示した。
おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。
論文 参考訳(メタデータ) (2021-03-23T17:05:54Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。