Fugu-MT 論文翻訳(概要): Investigating minimizing the training set fill distance in machine learning regression

論文の概要: Investigating minimizing the training set fill distance in machine learning regression

arxiv url: http://arxiv.org/abs/2307.10988v1
Date: Thu, 20 Jul 2023 16:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 12:08:15.352222
Title: Investigating minimizing the training set fill distance in machine learning regression
Title（参考訳）: 機械学習回帰におけるトレーニングセット充填距離の最小化の検討
Authors: Paolo Climaco and Jochen Garcke
Abstract要約: 本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。トレーニングセットの充足距離に線形に依存する最大予測誤差の上限を導出する。実験により,フィリング距離を最小化し,バウンダリを最小化し,様々な回帰モデルの最大予測誤差を著しく低減させることで,トレーニングセットを選択することを実証的に示す。
参考スコア（独自算出の注目度）: 1.14219428942199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many machine learning regression methods leverage large datasets for training predictive models. However, using large datasets may not be feasible due to computational limitations or high labelling costs. Therefore, sampling small training sets from large pools of unlabelled data points is essential to maximize model performance while maintaining computational efficiency. In this work, we study a sampling approach aimed to minimize the fill distance of the selected set. We derive an upper bound for the maximum expected prediction error that linearly depends on the training set fill distance, conditional to the knowledge of data features. For empirical validation, we perform experiments using two regression models on two datasets. We empirically show that selecting a training set by aiming to minimize the fill distance, thereby minimizing the bound, significantly reduces the maximum prediction error of various regression models, outperforming existing sampling approaches by a large margin.
Abstract（参考訳）: 多くの機械学習回帰手法は予測モデルをトレーニングするために大きなデータセットを利用する。しかし、計算上の制限やラベル付けコストが高いため、大規模なデータセットを使用することは不可能である。したがって、計算効率を保ちながらモデル性能を最大化するためには、未ラベルデータポイントのプールから小さなトレーニングセットをサンプリングすることが不可欠である。本研究では,選択した集合の充填距離を最小化するためのサンプリング手法を提案する。我々は,データ特徴の知識を条件として,トレーニングセット満杯距離に線形に依存する最大予測誤差の上限を導出する。経験的検証のために、2つのデータセット上で2つの回帰モデルを用いて実験を行う。実験により, 充填距離を最小化することを目的としたトレーニングセットの選択により, 境界を最小化することで, 各種回帰モデルの最大予測誤差を大幅に低減し, 既存のサンプリングアプローチを高いマージンで上回ることを示した。

関連論文リスト

Transfer Learning of Linear Regression with Multiple Pretrained Models: Benefiting from More Pretrained Models via Overparameterization Debiasing [0.5371337604556311]
複数の最小二乗事前学習モデルを用いて線形回帰タスクの伝達学習について検討する。我々は,学習対象モデルの試験誤差を解析的に定式化し,対応する経験的評価を提供する。
論文参考訳（メタデータ） (2026-02-18T15:19:02Z)
Density-Aware Farthest Point Sampling [2.9434930072968584]
本稿では,新しいサンプリング手法であるDA-FPS(Density-Aware Farthest Point Smpling)を紹介する。 DA-FPSは重み付き充填距離をデータ駆動で推定するための近似最小値を提供する。その結果, DA-FPSは, 他のサンプリング手法と比較して平均絶対誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2025-09-16T16:19:14Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文参考訳（メタデータ） (2024-11-01T21:11:48Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
SwiftLearn: A Data-Efficient Training Method of Deep Learning Models using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文参考訳（メタデータ） (2023-11-25T22:51:01Z)
Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文参考訳（メタデータ） (2023-11-24T13:21:35Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
Remember to correct the bias when using deep learning for regression! [13.452510519858992]
最小二乗回帰のためにディープラーニングモデルをトレーニングする場合、一定のトレーニング時間後に選択された最終モデルのトレーニングエラー残差がゼロになると予想できない。トレーニング後の機械学習モデルのバイアスを、デフォルトの後処理ステップとして調整し、効率よく解決することを提案する。
論文参考訳（メタデータ） (2022-03-30T17:09:03Z)
Mixing Deep Learning and Multiple Criteria Optimization: An Application to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。 MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文参考訳（メタデータ） (2021-12-02T16:00:44Z)
X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。両世界の力を生かすために,我々は新しいX-モデルを提案する。 X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文参考訳（メタデータ） (2021-10-09T13:56:48Z)
Training Data Subset Selection for Regression with Controlled Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。 SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文参考訳（メタデータ） (2021-06-23T16:03:55Z)
Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。 VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文参考訳（メタデータ） (2020-10-24T11:53:00Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。