論文の概要: Data Aggregation for Reducing Training Data in Symbolic Regression
- arxiv url: http://arxiv.org/abs/2108.10660v1
- Date: Tue, 24 Aug 2021 11:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:13:21.587941
- Title: Data Aggregation for Reducing Training Data in Symbolic Regression
- Title(参考訳): シンボリック回帰におけるトレーニングデータ削減のためのデータ集約
- Authors: Lukas Kammerer, Gabriel Kronberger, Michael Kommenda
- Abstract要約: 本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing volume of data makes the use of computationally intense machine
learning techniques such as symbolic regression with genetic programming more
and more impractical. This work discusses methods to reduce the training data
and thereby also the runtime of genetic programming. The data is aggregated in
a preprocessing step before running the actual machine learning algorithm.
K-means clustering and data binning is used for data aggregation and compared
with random sampling as the simplest data reduction method. We analyze the
achieved speed-up in training and the effects on the trained models test
accuracy for every method on four real-world data sets. The performance of
genetic programming is compared with random forests and linear regression. It
is shown, that k-means and random sampling lead to very small loss in test
accuracy when the data is reduced down to only 30% of the original data, while
the speed-up is proportional to the size of the data set. Binning on the
contrary, leads to models with very high test error.
- Abstract(参考訳): データの量が増えると、遺伝的プログラミングによるシンボリック回帰のような計算量の多い機械学習技術がますます非現実的になる。
本研究は,学習データを削減する手法と遺伝的プログラミングのランタイムについて述べる。
データは、実際の機械学習アルゴリズムを実行する前に、前処理ステップに集約される。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
実世界の4つのデータセットにおいて,学習における高速化と学習モデルへの影響を分析し,各手法の精度を検証した。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
その結果、k平均とランダムサンプリングは、データサイズに比例するスピードアップの一方で、元のデータの30%に削減された場合、テスト精度が極めて低下することが示された。
逆にバインディングは、非常に高いテストエラーのモデルにつながる。
関連論文リスト
- Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - Online Missing Value Imputation and Change Point Detection with the
Gaussian Copula [21.26330349034669]
実世界のデータサイエンスにとって、値計算の欠如は不可欠である。
ガウスコプラを用いた混合データに対するオンライン計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-25T16:27:47Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。