論文の概要: Online Active Learning with Dynamic Marginal Gain Thresholding
- arxiv url: http://arxiv.org/abs/2201.10547v1
- Date: Tue, 25 Jan 2022 18:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 14:59:51.095256
- Title: Online Active Learning with Dynamic Marginal Gain Thresholding
- Title(参考訳): Dynamic Marginal Gain Thresholdingによるオンラインアクティブラーニング
- Authors: Mariel A. Werner, Anastasios Angelopoulos, Stephen Bates, Michael I.
Jordan
- Abstract要約: 我々は,任意のデータストリームに対して,ストリームの最も価値の高いサブセットを一定要素まで抽出するオンラインアルゴリズムを提案する。
ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。
- 参考スコア(独自算出の注目度): 72.62466575649879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The blessing of ubiquitous data also comes with a curse: the communication,
storage, and labeling of massive, mostly redundant datasets. In our work, we
seek to solve the problem at its source, collecting only valuable data and
throwing out the rest, via active learning. We propose an online algorithm
which, given any stream of data, any assessment of its value, and any
formulation of its selection cost, extracts the most valuable subset of the
stream up to a constant factor while using minimal memory. Notably, our
analysis also holds for the federated setting, in which multiple agents select
online from individual data streams without coordination and with potentially
very different appraisals of cost. One particularly important use case is
selecting and labeling training sets from unlabeled collections of data that
maximize the test-time performance of a given classifier. In prediction tasks
on ImageNet and MNIST, we show that our selection method outperforms random
selection by up to 5-20%.
- Abstract(参考訳): ユビキタスなデータの祝福は、巨大な、ほとんど冗長なデータセットの通信、ストレージ、ラベリングという呪いも伴います。
我々の研究では、この問題をその情報源で解決し、価値あるデータのみを収集し、アクティブな学習を通じて残りのデータを捨てようとしている。
我々は,任意のデータストリーム,その値の評価,選択コストの定式化を考慮に入れたオンラインアルゴリズムを提案し,最小限のメモリを用いて,ストリームの最も価値の高いサブセットを一定要素まで抽出する。
特に,複数のエージェントが協調することなく個々のデータストリームからオンラインを選択し,潜在的にまったく異なるコスト評価を行うという,フェデレーション設定についても分析を行った。
特に重要なユースケースは、指定された分類器のテスト時間パフォーマンスを最大化するラベルなしのデータコレクションからトレーニングセットの選択とラベリングである。
ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Near-Optimal Data Source Selection for Bayesian Learning [1.625213292350038]
本研究では,ベイズ学習における基本的問題として,選択したデータストリームに基づいて一定の学習性能を達成しつつ,最小コストで複数のデータソースを選択することを目的とする。
本研究では,データソース選択問題を文献で研究した部分モジュラー集合被覆問題の事例に変換することができることを示す。
論文 参考訳(メタデータ) (2020-11-21T03:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。