論文の概要: Data Shapley Valuation for Efficient Batch Active Learning
- arxiv url: http://arxiv.org/abs/2104.08312v1
- Date: Fri, 16 Apr 2021 18:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 13:43:05.981711
- Title: Data Shapley Valuation for Efficient Batch Active Learning
- Title(参考訳): 効率的なバッチアクティブラーニングのためのデータシェープリー評価
- Authors: Amirata Ghorbani, James Zou, Andre Esteva
- Abstract要約: Active Data Shapley(ADS)は、バッチアクティブラーニングのためのフィルタリングレイヤーです。
ADSは、ラベルのないデータのプールが現実世界の異常を示す場合に特に効果的であることを示す。
- 参考スコア(独自算出の注目度): 21.76249748709411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating the right set of data amongst all available data points is a key
challenge in many machine learning applications. Batch active learning is a
popular approach to address this, in which batches of unlabeled data points are
selected for annotation, while an underlying learning algorithm gets
subsequently updated. Increasingly larger batches are particularly appealing in
settings where data can be annotated in parallel, and model training is
computationally expensive. A key challenge here is scale - typical active
learning methods rely on diversity techniques, which select a diverse set of
data points to annotate, from an unlabeled pool. In this work, we introduce
Active Data Shapley (ADS) -- a filtering layer for batch active learning that
significantly increases the efficiency of active learning by pre-selecting,
using a linear time computation, the highest-value points from an unlabeled
dataset. Using the notion of the Shapley value of data, our method estimates
the value of unlabeled data points with regards to the prediction task at hand.
We show that ADS is particularly effective when the pool of unlabeled data
exhibits real-world caveats: noise, heterogeneity, and domain shift. We run
experiments demonstrating that when ADS is used to pre-select the
highest-ranking portion of an unlabeled dataset, the efficiency of
state-of-the-art batch active learning methods increases by an average factor
of 6x, while preserving performance effectiveness.
- Abstract(参考訳): 利用可能なすべてのデータポイントに適切なデータセットをアノテートすることは、多くの機械学習アプリケーションにおいて重要な課題である。
バッチアクティブラーニングは、ラベルなしのデータポイントのバッチがアノテーションとして選択され、基礎となる学習アルゴリズムがその後更新されるという、この問題に対処する一般的なアプローチである。
ますます大きなバッチは、データが並列にアノテートされ、モデルトレーニングが計算コストが高い設定で特に魅力的になっている。
典型的なアクティブラーニング手法は、ラベルのないプールから、注釈を付けるために様々なデータポイントを選択する多様性技術に依存している。
本研究では,ADS(Active Data Shapley)というバッチアクティブラーニングのためのフィルタリングレイヤを導入し,線形時間計算を用いて,ラベルのないデータセットから最高値のポイントを抽出することにより,アクティブラーニングの効率を大幅に向上させる。
本手法では,データのシェープ値の概念を用いて,未ラベルデータポイントの値を予測タスクに関して推定する。
ADSは、ラベルのないデータのプールが、ノイズ、異質性、ドメインシフトといった現実世界の注意点を示す場合、特に有効であることを示す。
ADSを用いてラベルなしデータセットの上位部分の事前選択を行うと、最先端のバッチアクティブラーニング手法の効率が平均6倍向上し、性能効果が保たれることを示す実験を行った。
関連論文リスト
- Language Model-Driven Data Pruning Enables Efficient Active Learning [6.816044132563518]
我々は、未ラベルデータプルーニング戦略であるActivePruneを導入し、未ラベルデータプールをプルークする。
ラベルのないプールの多様性を高めるために,新しいパープレキシティ再重み付け法を提案する。
翻訳、感情分析、トピック分類、要約タスクの実験は、ActivePruneが既存のデータプルーニング方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-05T19:46:11Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Novel Batch Active Learning Approach and Its Application to Synthetic
Aperture Radar Datasets [7.381841249558068]
近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。
そこで我々は,Dijkstraのコアセット生成用Annulus Core-Set(DAC)とバッチサンプリング用LocalMaxという,バッチアクティブラーニングのための新しい2部構成のアプローチを開発した。
DACとLocalMaxを組み合わせたバッチアクティブラーニングプロセスは、逐次アクティブラーニングとほぼ同じ精度で、バッチサイズに比例して効率的である。
論文 参考訳(メタデータ) (2023-07-19T23:25:21Z) - Active learning for data streams: a survey [0.48951183832371004]
オンラインアクティブな学習は機械学習のパラダイムであり、データストリームからラベルに最も情報のあるデータポイントを選択することを目的としている。
それぞれの観測に注釈をつけるのは時間と費用がかかり、大量のラベル付きデータを得るのが難しくなる。
本研究の目的は、データストリームから最も情報性の高い観測をリアルタイムで選択するための、最近提案されたアプローチの概要を提供することである。
論文 参考訳(メタデータ) (2023-02-17T14:24:13Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - One-Round Active Learning [13.25385227263705]
1ラウンドのアクティブラーニングは、ラベル付け後の最高のユーティリティを達成するラベル付きデータポイントのサブセットを選択することを目的としている。
データユーティリティ関数の概念に基づく一括能動学習のための汎用フレームワークであるDULOを提案する。
以上の結果から,既存のアクティブな学習手法が複数ラウンドで成功する一方で,DULOは1ラウンドで常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-23T23:59:50Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。