論文の概要: Achieving Minimax Rates in Pool-Based Batch Active Learning
- arxiv url: http://arxiv.org/abs/2202.05448v1
- Date: Fri, 11 Feb 2022 04:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 14:19:22.652794
- Title: Achieving Minimax Rates in Pool-Based Batch Active Learning
- Title(参考訳): プールベースバッチアクティブラーニングにおけるミニマックスレートの達成
- Authors: Claudio Gentile, Zhilei Wang, Tong Zhang
- Abstract要約: 本稿では,学習者がラベル付けオラクルへのポイントのバッチを適応的に発行する,バッチアクティブな学習シナリオについて考察する。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
- 参考スコア(独自算出の注目度): 26.12124106759262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a batch active learning scenario where the learner adaptively
issues batches of points to a labeling oracle. Sampling labels in batches is
highly desirable in practice due to the smaller number of interactive rounds
with the labeling oracle (often human beings). However, batch active learning
typically pays the price of a reduced adaptivity, leading to suboptimal
results. In this paper we propose a solution which requires a careful trade off
between the informativeness of the queried points and their diversity. We
theoretically investigate batch active learning in the practically relevant
scenario where the unlabeled pool of data is available beforehand (pool-based
active learning). We analyze a novel stage-wise greedy algorithm and show that,
as a function of the label complexity, the excess risk of this algorithm
operating in the realizable setting for which we prove matches the known
minimax rates in standard statistical learning settings. Our results also
exhibit a mild dependence on the batch size. These are the first theoretical
results that employ careful trade offs between informativeness and diversity to
rigorously quantify the statistical performance of batch active learning in the
pool-based scenario.
- Abstract(参考訳): 我々は、学習者がoracleをラベル付けするポイントのバッチを適応的に発行するバッチアクティブラーニングシナリオを検討する。
バッチ内のラベルのサンプリングは、oracle(しばしば人間)との対話的なラウンドの数が少ないため、実際には非常に望ましい。
しかし、バッチアクティブな学習は通常、適応性の低下の価格を支払い、最適以下の結果をもたらす。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
本研究では,未ラベルのデータプールが事前に利用可能である場合(プールベースアクティブラーニング)において,バッチアクティブラーニングを理論的に検討する。
本研究では,新しい段階的グリーディアルゴリズムを解析し,ラベル複雑性の関数として,標準統計的学習環境における既知のミニマックス率に適合する実現可能な設定で動作するアルゴリズムの過大なリスクを示す。
また,本研究の結果はバッチサイズにやや依存している。
これらは、情報性と多様性の間の慎重なトレードオフを利用して、プールベースのシナリオにおけるバッチアクティブラーニングの統計的パフォーマンスを厳格に定量化する最初の理論的結果である。
関連論文リスト
- Class Balance Matters to Active Class-Incremental Learning [61.11786214164405]
まず、大規模な未ラベルデータのプールから始めて、インクリメンタルな学習のための最も情報に富んだサンプルを注釈付けします。
そこで我々は,クラスバランスと情報提供性を両立させるため,クラスバランス選択(CBS)戦略を提案する。
我々のCBSは、プリトレーニング済みモデルとプロンプトチューニング技術に基づいて、これらのCILメソッドに接続し、再生することができる。
論文 参考訳(メタデータ) (2024-12-09T16:37:27Z) - Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Batch Active Learning at Scale [39.26441165274027]
バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。
本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。
本研究では,不確実性と多様性の概念を組み合わせたサンプリング手法について,従来より数桁大きなバッチサイズ(100K-1M)に容易にスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-07-29T18:14:05Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - ALdataset: a benchmark for pool-based active learning [1.9308522511657449]
アクティブ・ラーニング(AL)は機械学習(ML)のサブフィールドであり、学習アルゴリズムは新しいデータポイントをラベル付けするためにユーザ/オーラルを対話的にクエリすることで、トレーニングサンプルの少ない精度で学習できる。
プールベースのALは多くのMLタスクにおいて、ラベルのないデータが豊富にあるが、ラベルを得るのは難しい。
提案手法は,最近提案された手法と古典的手法の両方で,様々なアクティブな学習戦略の実験結果を示し,その結果から洞察を得た。
論文 参考訳(メタデータ) (2020-10-16T04:37:29Z) - Active Learning under Label Shift [80.65643075952639]
重要度とクラスバランスサンプリングのトレードオフを取り入れた「メディカル分布」を導入する。
ラベルシフト(MALLS)下でのメディア型アクティブラーニングの複雑さと一般化保証を実証する。
我々は、MALLSスケールを高次元データセットに実証的に示し、深層学習タスクにおいて、アクティブラーニングのサンプル複雑性を60%削減することができる。
論文 参考訳(メタデータ) (2020-07-16T17:30:02Z) - Deep Active Learning via Open Set Recognition [0.0]
多くのアプリケーションでは、データは簡単に取得できるが、顕著な例を示すのに高価で時間がかかる。
オープンセット認識問題として能動的学習を定式化する。
現在のアクティブな学習方法とは異なり、我々のアルゴリズムはタスクラベルを必要とせずにタスクを学習することができる。
論文 参考訳(メタデータ) (2020-07-04T22:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。