論文の概要: Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid
- arxiv url: http://arxiv.org/abs/2506.03817v1
- Date: Wed, 04 Jun 2025 10:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.289537
- Title: Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid
- Title(参考訳): アクティブラーニングハイパーパラメータのサーベイ:大規模実験グリッドからの洞察
- Authors: Julius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner,
- Abstract要約: アクティブラーニング(Active Learning)は、専門家の注釈のために最も情報に富んだ未ラベルのサンプルを反復的に選択することで、人間のラベル付け作業を最小化する確立された手法である。
第一に、ALを設定する複雑さ、第二に、その有効性に対する信頼の欠如です。
- 参考スコア(独自算出の注目度): 12.786465146434491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating data is a time-consuming and costly task, but it is inherently required for supervised machine learning. Active Learning (AL) is an established method that minimizes human labeling effort by iteratively selecting the most informative unlabeled samples for expert annotation, thereby improving the overall classification performance. Even though AL has been known for decades, AL is still rarely used in real-world applications. As indicated in the two community web surveys among the NLP community about AL, two main reasons continue to hold practitioners back from using AL: first, the complexity of setting AL up, and second, a lack of trust in its effectiveness. We hypothesize that both reasons share the same culprit: the large hyperparameter space of AL. This mostly unexplored hyperparameter space often leads to misleading and irreproducible AL experiment results. In this study, we first compiled a large hyperparameter grid of over 4.6 million hyperparameter combinations, second, recorded the performance of all combinations in the so-far biggest conducted AL study, and third, analyzed the impact of each hyperparameter in the experiment results. In the end, we give recommendations about the influence of each hyperparameter, demonstrate the surprising influence of the concrete AL strategy implementation, and outline an experimental study design for reproducible AL experiments with minimal computational effort, thus contributing to more reproducible and trustworthy AL research in the future.
- Abstract(参考訳): データの注釈付けは時間がかかり費用がかかる作業だが、教師付き機械学習には本質的に必要である。
アクティブラーニング(英: Active Learning, AL)は、専門家の注釈のために最も情報に富んだ未ラベルのサンプルを反復的に選択することで、人間のラベル付け作業を最小限に抑える方法である。
ALは数十年前から知られていたが、現実世界のアプリケーションでは使われていない。
NLPコミュニティのALに関する2つのコミュニティWeb調査で示されているように、主要な2つの理由は、ALの使用を実践者が控えていることだ。
我々は、両方の理由が同じ原因、すなわちALの大きなハイパーパラメータ空間を共有していると仮定する。
このほとんど探索されていないハイパーパラメータ空間は、しばしば誤解を招き、再現不可能なAL実験結果をもたらす。
本研究では,まず,460万以上のハイパーパラメータの組み合わせからなる大規模ハイパーパラメータグリッドをコンパイルし,第2に,超極大AL研究におけるすべての組み合わせのパフォーマンスを記録し,第3に,実験結果における各ハイパーパラメータの影響を解析した。
最後に,各ハイパーパラメータの影響について提言し,具体的なAL戦略の実装の驚くべき影響を実証し,最小限の計算力で再現可能なAL実験の実験設計の概要を述べる。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - On the Limitations of Simulating Active Learning [32.34440406689871]
アクティブラーニング(アクティブラーニング、英: Active Learning、AL)は、人間のアノテーションのための情報的未ラベルデータを反復的に選択する、ヒューマン・アンド・モデル・イン・ザ・ループのパラダイムである。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
論文 参考訳(メタデータ) (2023-05-21T22:52:13Z) - Navigating the Pitfalls of Active Learning Evaluation: A Systematic
Framework for Meaningful Performance Assessment [3.3064235071867856]
アクティブラーニング(AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。
半教師型(Semi-SL)や自己教師型学習(Self-SL)のような新興パラダイムと比較して、ALの有効性を疑問視する研究もある。
論文 参考訳(メタデータ) (2023-01-25T15:07:44Z) - Smooth Sailing: Improving Active Learning for Pre-trained Language
Models with Representation Smoothness Analysis [3.490038106567192]
アクティブラーニング(AL)手法は、教師あり学習におけるラベルの複雑さを低減することを目的としている。
本稿では,検証セットを必要としない早期停止手法を提案する。
タスク適応がALを改善するのに対して、ALの標準のショート微調整はランダムサンプリングよりも改善しない。
論文 参考訳(メタデータ) (2022-12-20T19:37:20Z) - Margin-based sampling in high dimensions: When being active is less
efficient than staying passive [76.71565772067113]
最近の経験的証拠は、辺縁に基づくアクティブラーニングが受動的ラーニングよりもさらに悪い結果をもたらす可能性があることを示唆している。
雑音のないデータであっても、PLが利得ベースALより優れていることがロジスティック回帰の証明である。
以上の結果から, この高次元現象は, クラス間の分離が小さい場合に悪化することが示唆された。
論文 参考訳(メタデータ) (2022-12-01T18:55:59Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Effective Evaluation of Deep Active Learning on Image Classification
Tasks [10.27095298129151]
画像分類の文脈において,最先端の能動学習アルゴリズムを統一的に実装する。
正の面では、AL手法はデータ拡張によるRSに比べてラベル効率が2倍から4倍高いことを示す。
論文 参考訳(メタデータ) (2021-06-16T23:29:39Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - Towards Robust and Reproducible Active Learning Using Neural Networks [15.696979318409392]
アクティブラーニング(AL)は、大きなラベルのないデータを解析する可能性を持つ、有望なMLパラダイムである。
近年、ニューラルネットワークに基づくAL手法が、ラベル付けデータを禁止可能な領域におけるアノテーションコストの削減に有効である。
本研究では,異なるタイプのALアルゴリズムがランダムサンプリングベースラインよりも不整合ゲインを生み出すことを示す。
論文 参考訳(メタデータ) (2020-02-21T22:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。