論文の概要: Investigating minimizing the training set fill distance in machine
learning regression
- arxiv url: http://arxiv.org/abs/2307.10988v1
- Date: Thu, 20 Jul 2023 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:08:15.352222
- Title: Investigating minimizing the training set fill distance in machine
learning regression
- Title(参考訳): 機械学習回帰におけるトレーニングセット充填距離の最小化の検討
- Authors: Paolo Climaco and Jochen Garcke
- Abstract要約: 本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。
トレーニングセットの充足距離に線形に依存する最大予測誤差の上限を導出する。
実験により,フィリング距離を最小化し,バウンダリを最小化し,様々な回帰モデルの最大予測誤差を著しく低減させることで,トレーニングセットを選択することを実証的に示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning regression methods leverage large datasets for training
predictive models. However, using large datasets may not be feasible due to
computational limitations or high labelling costs. Therefore, sampling small
training sets from large pools of unlabelled data points is essential to
maximize model performance while maintaining computational efficiency. In this
work, we study a sampling approach aimed to minimize the fill distance of the
selected set. We derive an upper bound for the maximum expected prediction
error that linearly depends on the training set fill distance, conditional to
the knowledge of data features. For empirical validation, we perform
experiments using two regression models on two datasets. We empirically show
that selecting a training set by aiming to minimize the fill distance, thereby
minimizing the bound, significantly reduces the maximum prediction error of
various regression models, outperforming existing sampling approaches by a
large margin.
- Abstract(参考訳): 多くの機械学習回帰手法は予測モデルをトレーニングするために大きなデータセットを利用する。
しかし、計算上の制限やラベル付けコストが高いため、大規模なデータセットを使用することは不可能である。
したがって、計算効率を保ちながらモデル性能を最大化するためには、未ラベルデータポイントのプールから小さなトレーニングセットをサンプリングすることが不可欠である。
本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。
我々は,データ特徴の知識を条件として,トレーニングセット満杯距離に線形に依存する最大予測誤差の上限を導出する。
経験的検証のために、2つのデータセット上で2つの回帰モデルを用いて実験を行う。
実験により, 充填距離を最小化することを目的としたトレーニングセットの選択により, 境界を最小化することで, 各種回帰モデルの最大予測誤差を大幅に低減し, 既存のサンプリングアプローチを高いマージンで上回ることを示した。
関連論文リスト
- SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Remember to correct the bias when using deep learning for regression! [13.452510519858992]
最小二乗回帰のためにディープラーニングモデルをトレーニングする場合、一定のトレーニング時間後に選択された最終モデルのトレーニングエラー残差がゼロになると予想できない。
トレーニング後の機械学習モデルのバイアスを、デフォルトの後処理ステップとして調整し、効率よく解決することを提案する。
論文 参考訳(メタデータ) (2022-03-30T17:09:03Z) - Mixing Deep Learning and Multiple Criteria Optimization: An Application
to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。
本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。
MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:00:44Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Training Data Subset Selection for Regression with Controlled
Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文 参考訳(メタデータ) (2021-06-23T16:03:55Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。