論文の概要: On minimizing the training set fill distance in machine learning
regression
- arxiv url: http://arxiv.org/abs/2307.10988v2
- Date: Tue, 5 Dec 2023 13:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:42:36.652207
- Title: On minimizing the training set fill distance in machine learning
regression
- Title(参考訳): 機械学習回帰におけるトレーニングセット充填距離の最小化について
- Authors: Paolo Climaco and Jochen Garcke
- Abstract要約: 本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法を提案する。
FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.6526824510982802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For regression tasks one often leverages large datasets for training
predictive machine learning models. However, using large datasets may not be
feasible due to computational limitations or high data labelling costs.
Therefore, suitably selecting small training sets from large pools of
unlabelled data points is essential to maximize model performance while
maintaining efficiency. In this work, we study Farthest Point Sampling (FPS), a
data selection approach that aims to minimize the fill distance of the selected
set. We derive an upper bound for the maximum expected prediction error,
conditional to the location of the unlabelled data points, that linearly
depends on the training set fill distance. For empirical validation, we perform
experiments using two regression models on three datasets. We empirically show
that selecting a training set by aiming to minimize the fill distance, thereby
minimizing our derived bound, significantly reduces the maximum prediction
error of various regression models, outperforming alternative sampling
approaches by a large margin. Furthermore, we show that selecting training sets
with the FPS can also increase model stability for the specific case of
Gaussian kernel regression approaches.
- Abstract(参考訳): 回帰タスクでは、予測機械学習モデルのトレーニングに大規模なデータセットを利用することが多い。
しかし、大規模なデータセットを使用することは、計算上の制限や高いデータラベリングコストのため実現不可能である。
したがって、効率を保ちながらモデル性能を最大化するためには、乱れのないデータポイントの大きなプールから小さなトレーニングセットを選択することが望ましい。
本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法であるfarthest point sampling(fps)について検討する。
我々は,最大予測誤差の上限を,学習セットの充足距離に線形に依存する非競合データ点の位置に条件付けることによって導出した。
実験的な検証のために、3つのデータセット上で2つの回帰モデルを用いて実験を行う。
実験により, 充填距離を最小化し, 導出境界を最小化することでトレーニングセットの選択は, 様々な回帰モデルの最大予測誤差を著しく低減し, 代替サンプリングアプローチを大きなマージンで上回ることを示した。
さらに, fpsを用いたトレーニングセットの選択は, ガウス核回帰アプローチの特定の場合のモデル安定性を向上できることを示した。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Remember to correct the bias when using deep learning for regression! [13.452510519858992]
最小二乗回帰のためにディープラーニングモデルをトレーニングする場合、一定のトレーニング時間後に選択された最終モデルのトレーニングエラー残差がゼロになると予想できない。
トレーニング後の機械学習モデルのバイアスを、デフォルトの後処理ステップとして調整し、効率よく解決することを提案する。
論文 参考訳(メタデータ) (2022-03-30T17:09:03Z) - Mixing Deep Learning and Multiple Criteria Optimization: An Application
to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。
本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。
MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:00:44Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Training Data Subset Selection for Regression with Controlled
Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文 参考訳(メタデータ) (2021-06-23T16:03:55Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。