論文の概要: RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2106.07760v1
- Date: Mon, 14 Jun 2021 21:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:31:44.058227
- Title: RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Learning
- Title(参考訳): ReTRIEVE: 効率的かつロバストな半教師付き学習のためのコアセット選択
- Authors: Krishnateja Killamsetty, Xujiang Zhao, Feng Chen, Rishabh Iyer
- Abstract要約: 効率的で堅牢な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。
我々は,RETRIEVEが従来のSSL設定で約3倍の高速化を実現し,最先端(SOTA)の堅牢なSSLアルゴリズムと比較して5倍の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 9.155410614399159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semi-supervised learning (SSL) algorithms have had great success in recent
years in limited labeled data regimes. However, the current state-of-the-art
SSL algorithms are computationally expensive and entail significant compute
time and energy requirements. This can prove to be a huge limitation for many
smaller companies and academic groups. Our main insight is that training on a
subset of unlabeled data instead of entire unlabeled data enables the current
SSL algorithms to converge faster, thereby reducing the computational costs
significantly. In this work, we propose RETRIEVE, a coreset selection framework
for efficient and robust semi-supervised learning. RETRIEVE selects the coreset
by solving a mixed discrete-continuous bi-level optimization problem such that
the selected coreset minimizes the labeled set loss. We use a one-step gradient
approximation and show that the discrete optimization problem is approximately
submodular, thereby enabling simple greedy algorithms to obtain the coreset. We
empirically demonstrate on several real-world datasets that existing SSL
algorithms like VAT, Mean-Teacher, FixMatch, when used with RETRIEVE, achieve
a) faster training times, b) better performance when unlabeled data consists of
Out-of-Distribution(OOD) data and imbalance. More specifically, we show that
with minimal accuracy degradation, RETRIEVE achieves a speedup of around 3X in
the traditional SSL setting and achieves a speedup of 5X compared to
state-of-the-art (SOTA) robust SSL algorithms in the case of imbalance and OOD
data.
- Abstract(参考訳): 半教師付き学習(SSL)アルゴリズムは,近年,ラベル付きデータシステムにおいて大きな成功を収めている。
しかし、現在の最先端のSSLアルゴリズムは計算コストが高く、計算時間とエネルギー要求がかなり必要である。
これは、多くの小規模企業や学術グループにとって大きな制限となる可能性がある。
主な洞察は、ラベルなしデータ全体の代わりにラベルなしデータのサブセットをトレーニングすることで、現在のSSLアルゴリズムがより高速に収束し、計算コストを大幅に削減できるということです。
本研究では,効率的な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。
RETRIEVEは、選択されたコアセットがラベル付きセットの損失を最小限に抑えるように、混合離散連続二段階最適化問題を解くことでコアセットを選択する。
一段階勾配近似を用い、離散最適化問題はほぼ部分モジュラーであることを示し、単純なグリードアルゴリズムでコアセットを得る。
我々は、vat, mean-teacher, fixmatch, when used with retrieve, achieve a) fast training time, b) unlabeled dataがout-of-distribution(ood)データと不均衡からなる場合のより良いパフォーマンスを実世界で実証する。
より具体的には、ReTRIEVEは精度の低下を最小限に抑えつつ、従来のSSL設定の約3倍の高速化を実現し、不均衡やOODデータの場合の最先端(SOTA)ロバストSSLアルゴリズムと比較して5倍の高速化を実現する。
関連論文リスト
- Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。
この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。
広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文 参考訳(メタデータ) (2024-04-19T10:10:39Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - Unlabeled Data Help: Minimax Analysis and Adversarial Robustness [21.79888306754263]
自己教師付き学習(SSL)アプローチは、追加のラベルのないデータで学習アルゴリズムを補完する大きな可能性を実証することに成功した。
既存のSSLアルゴリズムがラベル付きデータとラベルなしデータの情報を十分に活用できるかどうかはまだ不明である。
本稿では,いくつかの統計モデルに基づく2020年の予測を引用し,再構成に基づくSSLアルゴリズムに対する肯定的な回答を与える。
論文 参考訳(メタデータ) (2022-02-14T19:24:43Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Relieving the Plateau: Active Semi-Supervised Learning for a Better
Landscape [2.3046646540823916]
semi-supervised learning (ssl) はラベル付きデータよりもアクセスしやすいラベルなしデータを活用する。
active learning (al)は、ラベルなしのインスタンスを選択して、ラベル付きデータの少ないパフォーマンスを期待する。
本稿では,ラベル付き集合を含む問題条件を改善するためにラベル付きデータを選択するALアルゴリズムである収束率制御(CRC)を提案する。
論文 参考訳(メタデータ) (2021-04-08T06:03:59Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。