論文の概要: Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions
- arxiv url: http://arxiv.org/abs/2303.14433v1
- Date: Sat, 25 Mar 2023 10:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:42:26.113881
- Title: Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions
- Title(参考訳): 実データプール推定に基づくコントラスト学習による深層能動的学習
- Authors: Jihyo Kim, Jeonghyeon Kim, Sangheum Hwang
- Abstract要約: アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning aims to identify the most informative data from an unlabeled
data pool that enables a model to reach the desired accuracy rapidly. This
benefits especially deep neural networks which generally require a huge number
of labeled samples to achieve high performance. Most existing active learning
methods have been evaluated in an ideal setting where only samples relevant to
the target task, i.e., in-distribution samples, exist in an unlabeled data
pool. A data pool gathered from the wild, however, is likely to include samples
that are irrelevant to the target task at all and/or too ambiguous to assign a
single class label even for the oracle. We argue that assuming an unlabeled
data pool consisting of samples from various distributions is more realistic.
In this work, we introduce new active learning benchmarks that include
ambiguous, task-irrelevant out-of-distribution as well as in-distribution
samples. We also propose an active learning method designed to acquire
informative in-distribution samples in priority. The proposed method leverages
both labeled and unlabeled data pools and selects samples from clusters on the
feature space constructed via contrastive learning. Experimental results
demonstrate that the proposed method requires a lower annotation budget than
existing active learning methods to reach the same level of accuracy.
- Abstract(参考訳): アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
これは特に、高いパフォーマンスを達成するために大量のラベル付きサンプルを必要とするディープニューラルネットワークの利点となる。
既存のアクティブラーニング手法の多くは、対象タスクに関連するサンプル、すなわち非ラベルデータプールに存在するサンプルのみを理想的な設定で評価されている。
しかし、ワイルドから集められたデータプールには、ターゲットタスクとは無関係なサンプルや、oracleにさえ単一のクラスラベルを割り当てるには曖昧すぎるサンプルが含まれている可能性が高い。
様々な分布のサンプルからなるラベルのないデータプールがより現実的であると仮定する。
本研究では,不明瞭でタスクに無関係なアウト・オブ・ディストリビューションや分布サンプルを含む,新たなアクティブ・ラーニング・ベンチマークを導入する。
また,情報配信サンプルを優先的に取得する能動的学習手法を提案する。
提案手法はラベル付きとラベルなしの両方のデータプールを活用し、コントラスト学習によって構築された特徴空間上のクラスタからサンプルを選択する。
実験結果から,提案手法は既存のアクティブラーニング手法よりもアノテーションの予算が低く,精度が同じであることが示唆された。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Forgetful Active Learning with Switch Events: Efficient Sampling for
Out-of-Distribution Data [13.800680101300756]
実際には、完全に訓練されたニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)入力とランダムに相互作用する。
本稿では,スイッチイベント(FALSE)による忘れがちなアクティブラーニングについて紹介する。
270以上の実験で最大4.5%の精度向上が報告された。
論文 参考訳(メタデータ) (2023-01-12T16:03:14Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - PAL : Pretext-based Active Learning [2.869739951301252]
提案手法は,従来の提案手法よりも,誤ラベルに頑健な深層ニューラルネットワークの能動的学習手法を提案する。
ラベルのないサンプルを選別するために、別ネットワークを使用します。
その結果,ラベルノイズの欠如による競合精度も向上した。
論文 参考訳(メタデータ) (2020-10-29T21:16:37Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Deep Active Learning via Open Set Recognition [0.0]
多くのアプリケーションでは、データは簡単に取得できるが、顕著な例を示すのに高価で時間がかかる。
オープンセット認識問題として能動的学習を定式化する。
現在のアクティブな学習方法とは異なり、我々のアルゴリズムはタスクラベルを必要とせずにタスクを学習することができる。
論文 参考訳(メタデータ) (2020-07-04T22:09:17Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。