論文の概要: Symbolic regression outperforms other models for small data sets
- arxiv url: http://arxiv.org/abs/2103.15147v1
- Date: Sun, 28 Mar 2021 15:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 08:37:55.612358
- Title: Symbolic regression outperforms other models for small data sets
- Title(参考訳): シンボリック回帰は小さなデータセットの他のモデルを上回る
- Authors: Casper Wilstrup and Jaan Kasak
- Abstract要約: 本研究は,250の観測値の小さなトレーニングセットに対して,記号回帰が機械学習モデルの優れた代替手段であることを示す。
240例中132例において、シンボリック回帰モデルは、サンプルデータ上で他のどのモデルよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning is often applied to obtain predictions and new understanding
of complex phenomena and relationships, but availability of sufficient data for
model training is a widespread problem. Traditional machine learning techniques
such as random forests and gradient boosting tend to overfit when working with
data sets of a few hundred samples. This study demonstrates that for small
training sets of 250 observations, symbolic regression is a superior
alternative to these machine learning models by providing better accuracy while
preserving the interpretability of linear models and decision trees. In 132 out
of 240 cases, the symbolic regression model performsbetter than any of the
other models on the out-of-sample data. The second best algorithm was found to
be a random forest, which performs best in 37 of the 240 cases. When
restricting the comparison to interpretable models,symbolic regression performs
best in 184 out of 240 cases.
- Abstract(参考訳): 機械学習は複雑な現象や関係の予測や新しい理解にしばしば応用されるが、モデルトレーニングに十分なデータの提供は広く問題となっている。
ランダムフォレストや勾配向上といった従来の機械学習技術は、数百のサンプルのデータセットを扱う場合、過度に適合する傾向にある。
本研究は,250個の観測値の小さなトレーニングセットに対して,線形モデルと決定木の解釈可能性を維持しつつ,精度を向上し,これらの機械学習モデルに代えてシンボル回帰が優れていることを示す。
240例中132例において、シンボリック回帰モデルは、サンプルデータ上で他のどのモデルよりも優れている。
第2の最良のアルゴリズムはランダムな森林であることが判明し、240件中37件で最善を尽くした。
解釈可能なモデルとの比較を制限する場合、シンボリック回帰は240例中184例で最良である。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Adaptive Optimization for Prediction with Missing Data [6.800113478497425]
適応線形回帰モデルの中には,命令規則と下流線形回帰モデルを同時に学習するのと等価なものもある。
ランダムにデータの欠落が強くない環境では,本手法はサンプル外精度を2~10%向上させる。
論文 参考訳(メタデータ) (2024-02-02T16:35:51Z) - Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion
Models [12.542073306638988]
VAEにおけるオーバーフィッティングエンコーダは,事前学習した拡散モデルからのサンプルのトレーニングによって効果的に緩和できることを示す。
提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Transfer learning suppresses simulation bias in predictive models built
from sparse, multi-modal data [15.587831925516957]
科学、工学、ビジネスにおける多くの問題は、ごくわずかな観察に基づく予測を必要とする。
堅牢な予測モデルを構築するには、特に設計空間が多次元である場合、これらのスパースデータをシミュレーションデータで拡張する必要がある。
ディープラーニングの最近の開発を組み合わせて、マルチモーダルデータからより堅牢な予測モデルを構築します。
論文 参考訳(メタデータ) (2021-04-19T23:28:32Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Symbolic Regression Driven by Training Data and Prior Knowledge [0.0]
シンボリック回帰では、分析モデルの探索は、トレーニングデータサンプルで観測された予測誤差によって純粋に駆動される。
本稿では、学習データと所望のモデルが示す特性の事前知識の両方によって駆動される多目的的シンボリック回帰手法を提案する。
論文 参考訳(メタデータ) (2020-04-24T19:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。