論文の概要: Active Data Discovery: Mining Unknown Data using Submodular Information
Measures
- arxiv url: http://arxiv.org/abs/2206.08566v1
- Date: Fri, 17 Jun 2022 05:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:56:49.971744
- Title: Active Data Discovery: Mining Unknown Data using Submodular Information
Measures
- Title(参考訳): active data discovery: submodular information measure を用いた未知のデータマイニング
- Authors: Suraj Kothawade, Shivang Chopra, Saikat Ghosh, Rishabh Iyer
- Abstract要約: 未知のデータスライスやクラスを効率的にマイニングできるアクティブなデータ発見フレームワークを提供する。
既存の最先端のアクティブな学習手法と比較して,提案手法の精度とラベル付け効率が向上することを示す。
- 参考スコア(独自算出の注目度): 1.7491858164568674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning is a very common yet powerful framework for iteratively and
adaptively sampling subsets of the unlabeled sets with a human in the loop with
the goal of achieving labeling efficiency. Most real world datasets have
imbalance either in classes and slices, and correspondingly, parts of the
dataset are rare. As a result, there has been a lot of work in designing active
learning approaches for mining these rare data instances. Most approaches
assume access to a seed set of instances which contain these rare data
instances. However, in the event of more extreme rareness, it is reasonable to
assume that these rare data instances (either classes or slices) may not even
be present in the seed labeled set, and a critical need for the active learning
paradigm is to efficiently discover these rare data instances. In this work, we
provide an active data discovery framework which can mine unknown data slices
and classes efficiently using the submodular conditional gain and submodular
conditional mutual information functions. We provide a general algorithmic
framework which works in a number of scenarios including image classification
and object detection and works with both rare classes and rare slices present
in the unlabeled set. We show significant accuracy and labeling efficiency
gains with our approach compared to existing state-of-the-art active learning
approaches for actively discovering these rare classes and slices.
- Abstract(参考訳): アクティブラーニング(active learning)は、ラベルなし集合のサブセットをループ内の人間で反復的かつ適応的にサンプリングし、ラベリング効率を達成するための非常に一般的かつ強力なフレームワークである。
ほとんどの現実世界のデータセットはクラスとスライスで不均衡であり、それに対応するデータセットの一部がレアである。
その結果、これらの稀なデータインスタンスをマイニングするためのアクティブな学習アプローチを設計する作業が数多く行われている。
ほとんどのアプローチでは、このようなまれなデータインスタンスを含むシードインスタンスセットへのアクセスを想定している。
しかし、より極端なレアネスの場合、これらのレアなデータインスタンス(クラスやスライス)がシードラベルセットに存在せず、アクティブな学習パラダイムが必要とされるのは、これらのレアなデータインスタンスを効率的に発見することである。
本研究では,未知データスライスとクラスを,サブモジュラー条件利得とサブモジュラー条件付き相互情報関数を用いて効率的にマイニングできるアクティブデータディスカバリフレームワークを提供する。
画像分類やオブジェクト検出など,多数のシナリオで機能する汎用的なアルゴリズムフレームワークを提供し,ラベルなし集合に存在する希少なクラスと希少なスライスの両方で動作する。
我々は,これらの希少なクラスやスライスを積極的に発見するための既存の最先端アクティブラーニングアプローチと比較して,アプローチによる精度とラベリング効率の向上を示す。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Inconsistency-Based Data-Centric Active Open-Set Annotation [6.652785290214744]
NEATは、オープンセットデータを積極的にアノテートするデータ中心のアクティブラーニング手法である。
NEATは、アクティブなオープンセットアノテーションのための最先端のアクティブな学習方法よりも、はるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-10T04:18:02Z) - Unsupervised Estimation of Ensemble Accuracy [0.0]
いくつかの分類器の結合力を推定する手法を提案する。
ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。
本手法は,一般的な大規模顔認証データセット上で実証する。
論文 参考訳(メタデータ) (2023-11-18T02:31:36Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Can I see an Example? Active Learning the Long Tail of Attributes and
Relations [64.50739983632006]
視覚シーンの属性や関係を問う,新たな逐次能動学習フレームワークを提案する。
従来のアクティブな学習手法では、特定の例のラベルを求めるが、エージェントが特定のカテゴリからサンプルを求めることができるように、このフレーミングを反転させる。
このフレーミングを用いて、データ分布の尾からサンプルを求めるアクティブサンプリング手法を導入し、Visual Genomeの古典的アクティブラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-11T19:28:19Z) - TALISMAN: Targeted Active Learning for Object Detection with Rare
Classes and Slices using Submodular Mutual Information [16.34454526943999]
本稿では,希少なスライスによるターゲット型アクティブラーニングやオブジェクト検出のための新しいフレームワークを提案する。
本手法では,関心領域の特徴を用いてインスタンス化されるサブモジュール相互情報関数を用いる。
我々は、PASCAL VOC07+12とBDD100Kという現実世界の自動運転データセット上で、私たちのフレームワークを評価した。
論文 参考訳(メタデータ) (2021-11-30T23:17:53Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Class-Balanced Active Learning for Image Classification [29.5211685759702]
本稿では,クラスバランスを考慮に入れた汎用最適化フレームワークを提案する。
3つのデータセットの結果から,本手法は汎用的(既存のほとんどのアクティブラーニングアルゴリズムと組み合わせることができる)であり,情報と代表に基づくアクティブラーニング手法の性能向上に効果的に適用可能であることが示された。
論文 参考訳(メタデータ) (2021-10-09T11:30:26Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。