論文の概要: Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach
- arxiv url: http://arxiv.org/abs/2106.02968v1
- Date: Sat, 5 Jun 2021 21:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:35:20.776227
- Title: Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach
- Title(参考訳): Wasserstein Distanceによる低予算アクティブラーニング:整数プログラミングアプローチ
- Authors: Rafid Mahmood, Sanja Fidler, Marc T. Law
- Abstract要約: アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
- 参考スコア(独自算出の注目度): 81.19737119343438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given restrictions on the availability of data, active learning is the
process of training a model with limited labeled data by selecting a core
subset of an unlabeled data pool to label. Although selecting the most useful
points for training is an optimization problem, the scale of deep learning data
sets forces most selection strategies to employ efficient heuristics. Instead,
we propose a new integer optimization problem for selecting a core set that
minimizes the discrete Wasserstein distance from the unlabeled pool. We
demonstrate that this problem can be tractably solved with a Generalized
Benders Decomposition algorithm. Our strategy requires high-quality latent
features which we obtain by unsupervised learning on the unlabeled pool.
Numerical results on several data sets show that our optimization approach is
competitive with baselines and particularly outperforms them in the low budget
regime where less than one percent of the data set is labeled.
- Abstract(参考訳): データの可用性に関する制限が与えられた場合、アクティブラーニングはラベル付きデータプールのコアサブセットを選択してラベル付きデータに制限のあるモデルをトレーニングするプロセスである。
トレーニングの最も有用なポイントを選択することは最適化の問題であるが、ディープラーニングデータセットのスケールは、ほとんどの選択戦略に効率的なヒューリスティックを使わざるを得ない。
代わりに,無ラベルプールからの離散wasserstein距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
一般化ベンダー分解アルゴリズムを用いて,この問題を抽出できることを示した。
当社の戦略には,ラベルなしプールでの教師なし学習によって得られる高品質な潜在機能が必要です。
いくつかのデータセットの数値的な結果から、最適化アプローチはベースラインと競合し、特に1%未満のデータセットをラベル付けした低予算のシステムでは、最適化手法が優れていることが分かる。
関連論文リスト
- Language Model-Driven Data Pruning Enables Efficient Active Learning [6.816044132563518]
我々は、未ラベルデータプルーニング戦略であるActivePruneを導入し、未ラベルデータプールをプルークする。
ラベルのないプールの多様性を高めるために,新しいパープレキシティ再重み付け法を提案する。
翻訳、感情分析、トピック分類、要約タスクの実験は、ActivePruneが既存のデータプルーニング方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-05T19:46:11Z) - Optimal and Efficient Binary Questioning for Human-in-the-Loop
Annotation [11.4375764457726]
本稿では,アノテートされたデータに予測器を付与するという,無視された相補的問題を考察する。
単純な二項分類設定では、最適一般解から実用的な方法まで幅広いスペクトルを提示する。
論文 参考訳(メタデータ) (2023-07-04T09:11:33Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - A Simple Baseline for Low-Budget Active Learning [15.54250249254414]
簡単なk平均クラスタリングアルゴリズムは、低予算で最先端のアクティブな学習方法より優れていることを示す。
この方法は,画像分類に基づく低予算能動学習のための単純なベースラインとして利用することができる。
論文 参考訳(メタデータ) (2021-10-22T19:36:56Z) - Partial Wasserstein Covering [10.52782170493037]
我々は、大規模なデータセットをエミュレートする目的で、部分的なWassersteinと呼ばれる一般的なタスクについて検討する。
この問題をワッサーシュタイン偏微分を目的関数とする離散最適化問題としてモデル化する。
我々は、シーンデータセットの駆動を含む部分的なワッサースタインの発散の観点から、2つのデータセットを効率的に作成できることを示します。
論文 参考訳(メタデータ) (2021-06-02T01:48:41Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Gradient Descent in RKHS with Importance Labeling [58.79085525115987]
我々は重要ラベル付け問題について研究し、ラベルなしデータが多く与えられている。
ラベルなしデータの情報サブセットを効果的に選択できる新しい重要ラベル方式を提案する。
論文 参考訳(メタデータ) (2020-06-19T01:55:00Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。