論文の概要: GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning
- arxiv url: http://arxiv.org/abs/2012.10630v3
- Date: Fri, 15 Jan 2021 21:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:16:53.493103
- Title: GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning
- Title(参考訳): GLISTER:効率的なロバスト学習のための一般化に基づくデータセット選択
- Authors: Krishnateja Killamsetty, Durga Sivasubramanian, Ganesh Ramakrishnan,
Rishabh Iyer
- Abstract要約: GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
- 参考スコア(独自算出の注目度): 11.220278271829699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large scale machine learning and deep models are extremely data-hungry.
Unfortunately, obtaining large amounts of labeled data is expensive, and
training state-of-the-art models (with hyperparameter tuning) requires
significant computing resources and time. Secondly, real-world data is noisy
and imbalanced. As a result, several recent papers try to make the training
process more efficient and robust. However, most existing work either focuses
on robustness or efficiency, but not both. In this work, we introduce Glister,
a GeneraLIzation based data Subset selecTion for Efficient and Robust learning
framework. We formulate Glister as a mixed discrete-continuous bi-level
optimization problem to select a subset of the training data, which maximizes
the log-likelihood on a held-out validation set. Next, we propose an iterative
online algorithm Glister-Online, which performs data selection iteratively
along with the parameter updates and can be applied to any loss-based learning
algorithm. We then show that for a rich class of loss functions including
cross-entropy, hinge-loss, squared-loss, and logistic-loss, the inner discrete
data selection is an instance of (weakly) submodular optimization, and we
analyze conditions for which Glister-Online reduces the validation loss and
converges. Finally, we propose Glister-Active, an extension to batch active
learning, and we empirically demonstrate the performance of Glister on a wide
range of tasks including, (a) data selection to reduce training time, (b)
robust learning under label noise and imbalance settings, and (c) batch-active
learning with several deep and shallow models. We show that our framework
improves upon state of the art both in efficiency and accuracy (in cases (a)
and (c)) and is more efficient compared to other state-of-the-art robust
learning algorithms in case (b).
- Abstract(参考訳): 大規模機械学習と深層モデルは非常にデータ量が多い。
残念なことに、大量のラベル付きデータを取得するのは高価であり、最先端モデルのトレーニング(ハイパーパラメータチューニング)には、かなりの計算資源と時間が必要である。
第二に、現実世界のデータは騒々しく不均衡です。
その結果、最近のいくつかの論文は、トレーニングプロセスをより効率的で堅牢なものにしようと試みている。
しかし、既存の仕事の多くは堅牢性か効率性に重点を置いているが、両方ではない。
本稿では、GeneraLIzationをベースとしたデータSubset selecTion for Efficient and Robust Learning frameworkであるGlisterを紹介する。
我々はglisterを混合離散連続二レベル最適化問題として定式化し、トレーニングデータのサブセットを選択し、ホールドアウト検証セットのログライク度を最大化する。
次に、パラメータ更新と共に反復的にデータ選択を行い、損失ベースの学習アルゴリズムに適用可能な反復オンラインアルゴリズムglister-onlineを提案する。
次に、クロスエントロピー、ヒンジロス、二乗ロス、ロジスティックロスを含む豊富な損失関数に対して、内部離散データ選択は(弱い)部分モジュラー最適化の例であり、Glister-Onlineが検証損失と収束を減少させる条件を分析する。
最後に,バッチアクティブ学習の拡張であるGlister-Activeを提案し,(a)学習時間を削減するためのデータ選択,(b)ラベルノイズと不均衡条件下での堅牢な学習,(c)深層モデルと浅層モデルを用いたバッチアクティブ学習など,幅広いタスクにおけるGlisterの性能を実証的に示す。
提案手法は,(a) と(c) の場合に)効率と精度の両面で向上し,(b) の場合には他の最先端の頑健な学習アルゴリズムよりも効率的であることを示す。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Training Data Subset Selection for Regression with Controlled
Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文 参考訳(メタデータ) (2021-06-23T16:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。