論文の概要: AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2404.05623v1
- Date: Mon, 8 Apr 2024 15:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.666975
- Title: AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets
- Title(参考訳): Anchoral: 大規模かつ不均衡なデータセットのための計算効率の良いアクティブラーニング
- Authors: Pietro Lesci, Andreas Vlachos,
- Abstract要約: 不均衡な分類タスクのアクティブラーニングは、マイノリティクラスが自然に発生することは滅多にないため、困難である。
標準的なプールベースのアクティブラーニングは、大きなプールでは計算コストがかかる。
これらの問題に対処するためにAnchorALを提案する。
- 参考スコア(独自算出の注目度): 8.293089483453775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning for imbalanced classification tasks is challenging as the minority classes naturally occur rarely. Gathering a large pool of unlabelled data is thus essential to capture minority instances. Standard pool-based active learning is computationally expensive on large pools and often reaches low accuracy by overfitting the initial decision boundary, thus failing to explore the input space and find minority instances. To address these issues we propose AnchorAL. At each iteration, AnchorAL chooses class-specific instances from the labelled set, or anchors, and retrieves the most similar unlabelled instances from the pool. This resulting subpool is then used for active learning. Using a small, fixed-sized subpool AnchorAL allows scaling any active learning strategy to large pools. By dynamically selecting different anchors at each iteration it promotes class balance and prevents overfitting the initial decision boundary, thus promoting the discovery of new clusters of minority instances. Experiments across different classification tasks, active learning strategies, and model architectures AnchorAL is (i) faster, often reducing runtime from hours to minutes, (ii) trains more performant models, (iii) and returns more balanced datasets than competing methods.
- Abstract(参考訳): 不均衡な分類タスクのアクティブラーニングは、マイノリティクラスが自然に稀に発生するため、困難である。
したがって、乱れのない大量のデータを集めることは、マイノリティなインスタンスをキャプチャするのに不可欠である。
標準的なプールベースのアクティブラーニングは、大きなプールでは計算コストが高く、初期決定境界を過度に適合させることで、入力空間の探索に失敗し、少数インスタンスを見つけることで、しばしば低い精度に達する。
これらの問題に対処するため、AnchorALを提案する。
各イテレーションで、Anchoralはラベル付けされたセットまたはアンカーからクラス固有のインスタンスを選択し、プールから最も類似しないインスタンスを検索する。
この結果のサブプールは、アクティブな学習に使用される。
小さな固定サイズのサブプールAnchorALを使用することで、任意のアクティブな学習戦略を大規模プールに拡張することができる。
各イテレーションで異なるアンカーを動的に選択することで、クラスバランスが促進され、初期決定境界の過度な適合が防止され、少数インスタンスの新しいクラスタの発見が促進される。
AnchorALは、さまざまな分類タスク、アクティブラーニング戦略、モデルアーキテクチャにまたがる実験
(i)高速で、実行時間を数時間から数分に短縮することが多い。
(二)より高性能な模型を運転する。
(iii)競合するメソッドよりもバランスのとれたデータセットを返す。
関連論文リスト
- Mining of Single-Class by Active Learning for Semantic Segmentation [0.0]
我々は,MiSiCAL(Active Learning)パラダイムによる単一クラスのマイニングについて紹介する。
MiSiCALは量と精度の相関を利用して、特定のクラスに関して高性能なモデルを訓練できるデータセットを構築する。
MiSiCALは17110kクラス中150クラスでランダムポリシーを上回り、最強のベースラインは101クラスでのみランダムポリシーを上回ります。
論文 参考訳(メタデータ) (2023-07-18T09:58:15Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - Active Learning from the Web [6.09170287691728]
プールベースのアクティブラーニングは、ラベル付けされたデータのプールを構築し、必要なラベルの総数が最小になるように反復的にラベル付けされるデータを選択する。
本研究では,ユーザ側情報検索アルゴリズムを用いて,Webからの能動的学習の観点から情報検索を行う効率的なシーファリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-15T05:55:35Z) - Achieving Minimax Rates in Pool-Based Batch Active Learning [26.12124106759262]
本稿では,学習者がラベル付けオラクルへのポイントのバッチを適応的に発行する,バッチアクティブな学習シナリオについて考察する。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
論文 参考訳(メタデータ) (2022-02-11T04:55:45Z) - L2B: Learning to Bootstrap Robust Models for Combating Label Noise [52.02335367411447]
本稿では,Learning to Bootstrap (L2B) という,シンプルで効果的な手法を提案する。
モデルは、誤った擬似ラベルの影響を受けずに、自身の予測を使ってブートストラップを行うことができる。
これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。
論文 参考訳(メタデータ) (2022-02-09T05:57:08Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - One Loss for All: Deep Hashing with a Single Cosine Similarity based
Learning Objective [86.48094395282546]
ディープハッシュモデルは通常、学習されたバイナリハッシュコードの識別と量子化エラーの最小化という2つの学習目標を持つ。
本稿では,1つの学習目的しか持たない新しい深層ハッシュモデルを提案する。
我々のモデルは,3つの大規模インスタンス検索ベンチマークにおいて,最先端のマルチロスハッシュモデルより優れている。
論文 参考訳(メタデータ) (2021-09-29T14:27:51Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。