論文の概要: Investigating minimizing the training set fill distance in machine
learning regression
- arxiv url: http://arxiv.org/abs/2307.10988v1
- Date: Thu, 20 Jul 2023 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:08:15.352222
- Title: Investigating minimizing the training set fill distance in machine
learning regression
- Title(参考訳): 機械学習回帰におけるトレーニングセット充填距離の最小化の検討
- Authors: Paolo Climaco and Jochen Garcke
- Abstract要約: 本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。
トレーニングセットの充足距離に線形に依存する最大予測誤差の上限を導出する。
実験により,フィリング距離を最小化し,バウンダリを最小化し,様々な回帰モデルの最大予測誤差を著しく低減させることで,トレーニングセットを選択することを実証的に示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning regression methods leverage large datasets for training
predictive models. However, using large datasets may not be feasible due to
computational limitations or high labelling costs. Therefore, sampling small
training sets from large pools of unlabelled data points is essential to
maximize model performance while maintaining computational efficiency. In this
work, we study a sampling approach aimed to minimize the fill distance of the
selected set. We derive an upper bound for the maximum expected prediction
error that linearly depends on the training set fill distance, conditional to
the knowledge of data features. For empirical validation, we perform
experiments using two regression models on two datasets. We empirically show
that selecting a training set by aiming to minimize the fill distance, thereby
minimizing the bound, significantly reduces the maximum prediction error of
various regression models, outperforming existing sampling approaches by a
large margin.
- Abstract(参考訳): 多くの機械学習回帰手法は予測モデルをトレーニングするために大きなデータセットを利用する。
しかし、計算上の制限やラベル付けコストが高いため、大規模なデータセットを使用することは不可能である。
したがって、計算効率を保ちながらモデル性能を最大化するためには、未ラベルデータポイントのプールから小さなトレーニングセットをサンプリングすることが不可欠である。
本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。
我々は,データ特徴の知識を条件として,トレーニングセット満杯距離に線形に依存する最大予測誤差の上限を導出する。
経験的検証のために、2つのデータセット上で2つの回帰モデルを用いて実験を行う。
実験により, 充填距離を最小化することを目的としたトレーニングセットの選択により, 境界を最小化することで, 各種回帰モデルの最大予測誤差を大幅に低減し, 既存のサンプリングアプローチを高いマージンで上回ることを示した。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Remember to correct the bias when using deep learning for regression! [13.452510519858992]
最小二乗回帰のためにディープラーニングモデルをトレーニングする場合、一定のトレーニング時間後に選択された最終モデルのトレーニングエラー残差がゼロになると予想できない。
トレーニング後の機械学習モデルのバイアスを、デフォルトの後処理ステップとして調整し、効率よく解決することを提案する。
論文 参考訳(メタデータ) (2022-03-30T17:09:03Z) - Mixing Deep Learning and Multiple Criteria Optimization: An Application
to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。
本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。
MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:00:44Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Training Data Subset Selection for Regression with Controlled
Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文 参考訳(メタデータ) (2021-06-23T16:03:55Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。