論文の概要: Active Learning under Pool Set Distribution Shift and Noisy Data
- arxiv url: http://arxiv.org/abs/2106.11719v1
- Date: Tue, 22 Jun 2021 12:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:12:31.225831
- Title: Active Learning under Pool Set Distribution Shift and Noisy Data
- Title(参考訳): プールセット分布シフトとノイズデータによるアクティブラーニング
- Authors: Andreas Kirsch, Tom Rainforth, Yarin Gal
- Abstract要約: BALDはそのタスクに関係のない配布外データやジャンクデータに立ち往生していることを示す。
本稿では,プールセットの分布変化に対処するため, 予測予測情報ゲイン(EPIG)*について検討する。
EPIGは、プールセットの分布と異なるかもしれないテストデータ分布からサンプリングされた未ラベル*評価セット*上の*予測*の不確実性を減らす。
- 参考スコア(独自算出の注目度): 41.69385715445311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning is essential for more label-efficient deep learning. Bayesian
Active Learning has focused on BALD, which reduces model parameter uncertainty.
However, we show that BALD gets stuck on out-of-distribution or junk data that
is not relevant for the task. We examine a novel *Expected Predictive
Information Gain (EPIG)* to deal with distribution shifts of the pool set. EPIG
reduces the uncertainty of *predictions* on an unlabelled *evaluation set*
sampled from the test data distribution whose distribution might be different
to the pool set distribution. Based on this, our new EPIG-BALD acquisition
function for Bayesian Neural Networks selects samples to improve the
performance on the test data distribution instead of selecting samples that
reduce model uncertainty everywhere, including for out-of-distribution regions
with low density in the test data distribution. Our method outperforms
state-of-the-art Bayesian active learning methods on high-dimensional datasets
and avoids out-of-distribution junk data in cases where current
state-of-the-art methods fail.
- Abstract(参考訳): よりラベル効率のよいディープラーニングには、アクティブラーニングが不可欠です。
ベイズアクティブラーニングは、モデルパラメータの不確かさを減少させるボールドに焦点を当てている。
しかし,BALDは,タスクに関係のないディストリビューションデータやジャンクデータに悩まされることが示される。
本稿では,プールセットの分布変化に対処するため, 予測予測情報ゲイン(EPIG)*について検討する。
EPIGは、プールセットの分布と異なるかもしれないテストデータ分布からサンプリングされた未ラベル*評価セット*上の*予測*の不確実性を減らす。
ベイズ型ニューラルネットワークのための新しいエピグバルド獲得関数は、テストデータ分布の密度が低い分散領域を含む、あらゆる場所でモデルの不確実性を低減するサンプルを選択する代わりに、テストデータ分布の性能を改善するためにサンプルを選択する。
本手法は,最先端のベイズアクティブラーニング手法を高次元データセット上で上回り,現状のベイズアクティブラーニング手法が失敗した場合の分散型ジャンクデータを回避する。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Uncertainty Measurement of Deep Learning System based on the Convex Hull of Training Sets [0.13265175299265505]
本研究では,訓練データの凸殻に基づくトレーニングモデルの不確実性を測定するTo-hull Uncertainity and Closure Ratioを提案する。
学習したデータの凸船体と見えないサンプルとの間の位置関係を観察し、サンプルが凸船体からどのように外挿されているかを推測することができる。
論文 参考訳(メタデータ) (2024-05-25T06:25:24Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Bayesian Self-Supervised Contrastive Learning [16.903874675729952]
本稿では,BCL損失と呼ばれる新たな自己監督型コントラスト損失を提案する。
鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。
実験はBCL損失の有効性と優越性を検証した。
論文 参考訳(メタデータ) (2023-01-27T12:13:06Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Learn from Unpaired Data for Image Restoration: A Variational Bayes
Approach [18.007258270845107]
境界分布から抽出したデータから結合確率密度関数を学習するための深層生成法 LUD-VAE を提案する。
本稿では,LUD-VAEによって生成された合成データを用いて,実世界の画像認識と超分解能タスクに適用し,モデルを訓練する。
論文 参考訳(メタデータ) (2022-04-21T13:27:17Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。