論文の概要: Online Active Learning with Dynamic Marginal Gain Thresholding
- arxiv url: http://arxiv.org/abs/2201.10547v1
- Date: Tue, 25 Jan 2022 18:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 14:59:51.095256
- Title: Online Active Learning with Dynamic Marginal Gain Thresholding
- Title(参考訳): Dynamic Marginal Gain Thresholdingによるオンラインアクティブラーニング
- Authors: Mariel A. Werner, Anastasios Angelopoulos, Stephen Bates, Michael I.
Jordan
- Abstract要約: 我々は,任意のデータストリームに対して,ストリームの最も価値の高いサブセットを一定要素まで抽出するオンラインアルゴリズムを提案する。
ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。
- 参考スコア(独自算出の注目度): 72.62466575649879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The blessing of ubiquitous data also comes with a curse: the communication,
storage, and labeling of massive, mostly redundant datasets. In our work, we
seek to solve the problem at its source, collecting only valuable data and
throwing out the rest, via active learning. We propose an online algorithm
which, given any stream of data, any assessment of its value, and any
formulation of its selection cost, extracts the most valuable subset of the
stream up to a constant factor while using minimal memory. Notably, our
analysis also holds for the federated setting, in which multiple agents select
online from individual data streams without coordination and with potentially
very different appraisals of cost. One particularly important use case is
selecting and labeling training sets from unlabeled collections of data that
maximize the test-time performance of a given classifier. In prediction tasks
on ImageNet and MNIST, we show that our selection method outperforms random
selection by up to 5-20%.
- Abstract(参考訳): ユビキタスなデータの祝福は、巨大な、ほとんど冗長なデータセットの通信、ストレージ、ラベリングという呪いも伴います。
我々の研究では、この問題をその情報源で解決し、価値あるデータのみを収集し、アクティブな学習を通じて残りのデータを捨てようとしている。
我々は,任意のデータストリーム,その値の評価,選択コストの定式化を考慮に入れたオンラインアルゴリズムを提案し,最小限のメモリを用いて,ストリームの最も価値の高いサブセットを一定要素まで抽出する。
特に,複数のエージェントが協調することなく個々のデータストリームからオンラインを選択し,潜在的にまったく異なるコスト評価を行うという,フェデレーション設定についても分析を行った。
特に重要なユースケースは、指定された分類器のテスト時間パフォーマンスを最大化するラベルなしのデータコレクションからトレーニングセットの選択とラベリングである。
ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。
関連論文リスト
- DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Greedy Modality Selection via Approximate Submodular Maximization [19.22947539760366]
マルチモーダル学習は、異質な情報ソースを融合することを目的としたマルチモーダルデータからの学習を検討する。
メモリ制約のため、利用可能なすべてのモダリティを活用することが常に可能であるとは限らない。
本研究では,ある計算制約の下で最も情報的かつ補完的なモダリティを効率的に選択することを目的としたモダリティ選択について検討する。
論文 参考訳(メタデータ) (2022-10-22T22:07:27Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Near-Optimal Data Source Selection for Bayesian Learning [1.625213292350038]
本研究では,ベイズ学習における基本的問題として,選択したデータストリームに基づいて一定の学習性能を達成しつつ,最小コストで複数のデータソースを選択することを目的とする。
本研究では,データソース選択問題を文献で研究した部分モジュラー集合被覆問題の事例に変換することができることを示す。
論文 参考訳(メタデータ) (2020-11-21T03:12:38Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。