論文の概要: Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios
- arxiv url: http://arxiv.org/abs/2207.01190v1
- Date: Mon, 4 Jul 2022 04:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:42:17.072663
- Title: Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios
- Title(参考訳): アウトオブディストリビューションデータシナリオにおけるアクティブラーニングのためのpareto最適化
- Authors: Xueying Zhan, Zeyu Dai, Qingzhong Wang, Qing Li, Haoyi Xiong, Dejing
Dou, Antoni B. Chan
- Abstract要約: 本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
- 参考スコア(独自算出の注目度): 79.02009938011447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pool-based Active Learning (AL) has achieved great success in minimizing
labeling cost by sequentially selecting informative unlabeled samples from a
large unlabeled data pool and querying their labels from oracle/annotators.
However, existing AL sampling strategies might not work well in
out-of-distribution (OOD) data scenarios, where the unlabeled data pool
contains some data samples that do not belong to the classes of the target
task. Achieving good AL performance under OOD data scenarios is a challenging
task due to the natural conflict between AL sampling strategies and OOD sample
detection. AL selects data that are hard to be classified by the current basic
classifier (e.g., samples whose predicted class probabilities have high
entropy), while OOD samples tend to have more uniform predicted class
probabilities (i.e., high entropy) than in-distribution (ID) data. In this
paper, we propose a sampling scheme, Monte-Carlo Pareto Optimization for Active
Learning (POAL), which selects optimal subsets of unlabeled samples with fixed
batch size from the unlabeled data pool. We cast the AL sampling task as a
multi-objective optimization problem, and thus we utilize Pareto optimization
based on two conflicting objectives: (1) the normal AL data sampling scheme
(e.g., maximum entropy), and (2) the confidence of not being an OOD sample.
Experimental results show its effectiveness on both classical Machine Learning
(ML) and Deep Learning (DL) tasks.
- Abstract(参考訳): プールベースのアクティブラーニング(AL)は、大きなラベル付きデータプールから情報付き未ラベルのサンプルを順次選択し、オラクル/アノテーションからラベルをクエリすることで、ラベルの最小化に成功している。
しかし、既存のalサンプリング戦略は、ラベルのないデータプールがターゲットタスクのクラスに属さないいくつかのデータサンプルを含む、out-of-distribution(ood)データシナリオではうまく機能しないかもしれない。
OODデータシナリオ下での優れたALパフォーマンスを達成することは、ALサンプリング戦略とOODサンプル検出との自然な衝突のため、難しい作業である。
ALは、現在の基本的な分類器(例えば、予測クラス確率が高いエントロピーを持つサンプル)によって分類されにくいデータを選択する一方、OODサンプルは、分布内データよりも予測クラス確率(高いエントロピー)が高い傾向にある。
本稿では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適サブセットを選択する,モンテカルロ・パレート最適化(poal)というサンプリング手法を提案する。
我々は、ALサンプリングタスクを多目的最適化問題とし、(1)通常のALデータサンプリングスキーム(例えば、最大エントロピー)と(2)OODサンプルでない自信の2つの相反する目的に基づいてPareto最適化を利用する。
実験結果は、古典的機械学習(ML)タスクとディープラーニング(DL)タスクの両方において効果を示す。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。