論文の概要: Active Learning at the ImageNet Scale
- arxiv url: http://arxiv.org/abs/2111.12880v1
- Date: Thu, 25 Nov 2021 02:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 00:18:30.973217
- Title: Active Learning at the ImageNet Scale
- Title(参考訳): ImageNet Scaleにおけるアクティブラーニング
- Authors: Zeyad Ali Sami Emam, Hong-Min Chu, Ping-Yeh Chiang, Wojciech Czaja,
Richard Leapman, Micah Goldblum, Tom Goldstein
- Abstract要約: 本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
- 参考スコア(独自算出の注目度): 43.595076693347835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Active learning (AL) algorithms aim to identify an optimal subset of data for
annotation, such that deep neural networks (DNN) can achieve better performance
when trained on this labeled subset. AL is especially impactful in industrial
scale settings where data labeling costs are high and practitioners use every
tool at their disposal to improve model performance. The recent success of
self-supervised pretraining (SSP) highlights the importance of harnessing
abundant unlabeled data to boost model performance. By combining AL with SSP,
we can make use of unlabeled data while simultaneously labeling and training on
particularly informative samples.
In this work, we study a combination of AL and SSP on ImageNet. We find that
performance on small toy datasets -- the typical benchmark setting in the
literature -- is not representative of performance on ImageNet due to the class
imbalanced samples selected by an active learner. Among the existing baselines
we test, popular AL algorithms across a variety of small and large scale
settings fail to outperform random sampling. To remedy the class-imbalance
problem, we propose Balanced Selection (BASE), a simple, scalable AL algorithm
that outperforms random sampling consistently by selecting more balanced
samples for annotation than existing methods. Our code is available at:
https://github.com/zeyademam/active_learning .
- Abstract(参考訳): アクティブラーニング(AL)アルゴリズムは、アノテーションのためのデータの最適なサブセットを特定することを目的としており、ディープニューラルネットワーク(DNN)はこのラベル付きサブセットでトレーニングされた時により良いパフォーマンスを達成することができる。
ALは特に、データラベリングコストが高く、実践者はモデルパフォーマンスを改善するためにすべてのツールを使用する産業規模の設定に影響を与えます。
最近のssp(self-supervised pretraining)の成功は、豊富なラベルのないデータをモデルパフォーマンス向上に活用することの重要性を浮き彫りにしている。
ALとSSPを組み合わせることで、ラベルのないデータを同時にラベル付けし、特に有意なサンプルのトレーニングを行うことができる。
本研究では,imagenetにおけるalとsspの組み合わせについて検討する。
文献の典型的なベンチマーク設定である小さなおもちゃのデータセットのパフォーマンスは、アクティブ学習者が選択したクラス不均衡なサンプルのため、ImageNetのパフォーマンスを表すものではない。
テストしている既存のベースラインのうち、さまざまな小規模および大規模設定で人気のあるalアルゴリズムは、ランダムサンプリングを上回ってはいない。
クラス不均衡問題を改善するために,従来の手法よりもバランスの取れたアノテーションのサンプルを選択することで,ランダムサンプリングを一貫したアルゴリズムであるBa balanced Selection (BASE)を提案する。
私たちのコードは、https://github.com/zeyademam/active_learningで利用可能です。
関連論文リスト
- Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - Active Transfer Prototypical Network: An Efficient Labeling Algorithm
for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。
このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。
学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文 参考訳(メタデータ) (2022-09-28T16:14:40Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。