論文の概要: Training Data Subset Selection for Regression with Controlled
Generalization Error
- arxiv url: http://arxiv.org/abs/2106.12491v1
- Date: Wed, 23 Jun 2021 16:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:10:16.808996
- Title: Training Data Subset Selection for Regression with Controlled
Generalization Error
- Title(参考訳): 一般化誤差制御による回帰学習のためのトレーニングデータサブセット選択
- Authors: Durga Sivasubramanian, Rishabh Iyer, Ganesh Ramakrishnan, Abir De
- Abstract要約: そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
- 参考スコア(独自算出の注目度): 19.21682938684508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data subset selection from a large number of training instances has been a
successful approach toward efficient and cost-effective machine learning.
However, models trained on a smaller subset may show poor generalization
ability. In this paper, our goal is to design an algorithm for selecting a
subset of the training data, so that the model can be trained quickly, without
significantly sacrificing on accuracy. More specifically, we focus on data
subset selection for L2 regularized regression problems and provide a novel
problem formulation which seeks to minimize the training loss with respect to
both the trainable parameters and the subset of training data, subject to error
bounds on the validation set. We tackle this problem using several technical
innovations. First, we represent this problem with simplified constraints using
the dual of the original training problem and show that the objective of this
new representation is a monotone and alpha-submodular function, for a wide
variety of modeling choices. Such properties lead us to develop SELCON, an
efficient majorization-minimization algorithm for data subset selection, that
admits an approximation guarantee even when the training provides an imperfect
estimate of the trained model. Finally, our experiments on several datasets
show that SELCON trades off accuracy and efficiency more effectively than the
current state-of-the-art.
- Abstract(参考訳): 多数のトレーニングインスタンスからのデータサブセット選択は、効率的でコスト効率の良い機械学習へのアプローチとして成功している。
しかし、より小さな部分集合で訓練されたモデルは、一般化能力に乏しい。
本稿では,トレーニングデータのサブセットを選択するアルゴリズムを設計することで,精度を著しく犠牲にすることなく,モデルを迅速にトレーニングすることを目的とする。
より具体的には、l2正規化回帰問題に対するデータサブセット選択に着目し、トレーニング可能なパラメータとトレーニングデータのサブセットの両方に対するトレーニング損失を最小限に抑えることを目的とした新しい問題定式化を提供する。
我々はいくつかの技術革新を用いてこの問題に取り組む。
まず、この問題を元のトレーニング問題の双対を用いて単純化した制約で表現し、この新しい表現の目的が様々なモデリング選択に対してモノトーンおよびα-部分モジュラー関数であることを示す。
このような特性により、トレーニングがトレーニングされたモデルの不完全推定を提供しても近似を保証する、データサブセット選択のための効率的な分極最小化アルゴリズムであるSELCONを開発することができる。
最後に、いくつかのデータセットに対する実験により、SELCONは現在の最先端技術よりも精度と効率を効果的に交換することを示した。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Finding High-Value Training Data Subset through Differentiable Convex
Programming [5.5180456567480896]
本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。
重要なアイデアは、オンラインサブセット選択のための学習可能なフレームワークを設計することです。
このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-28T14:33:26Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - Rank-Based Multi-task Learning for Fair Regression [9.95899391250129]
バイアス付きデータセットに基づくマルチタスク回帰モデルのための新しい学習手法を開発した。
一般的な非パラメトリックオラクルベースの非ワールド乗算器データセットを使用します。
論文 参考訳(メタデータ) (2020-09-23T22:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。