論文の概要: Can Synthetic Data Improve Symbolic Regression Extrapolation Performance?
- arxiv url: http://arxiv.org/abs/2511.22794v1
- Date: Thu, 27 Nov 2025 22:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.728285
- Title: Can Synthetic Data Improve Symbolic Regression Extrapolation Performance?
- Title(参考訳): シンボリック回帰外挿性能は向上するか?
- Authors: Fitria Wulandari Ramlan, Colm O'Riordan, Gabriel Kronberger, James McDermott,
- Abstract要約: 遺伝的プログラミング(GP)を用いた記号回帰(SR)はフレキシブルなモデルを生成することができるが、外挿において信頼性の低い振る舞いをする傾向がある。
本稿では,合成データの追加が,このような場合の性能向上に有効かどうかを考察する。
- 参考スコア(独自算出の注目度): 1.5169370091868053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning models perform well when making predictions within the training data range, but often struggle when required to extrapolate beyond it. Symbolic regression (SR) using genetic programming (GP) can generate flexible models but is prone to unreliable behaviour in extrapolation. This paper investigates whether adding synthetic data can help improve performance in such cases. We apply Kernel Density Estimation (KDE) to identify regions in the input space where the training data is sparse. Synthetic data is then generated in those regions using a knowledge distillation approach: a teacher model generates predictions on new input points, which are then used to train a student model. We evaluate this method across six benchmark datasets, using neural networks (NN), random forests (RF), and GP both as teacher models (to generate synthetic data) and as student models (trained on the augmented data). Results show that GP models can often improve when trained on synthetic data, especially in extrapolation areas. However, the improvement depends on the dataset and teacher model used. The most important improvements are observed when synthetic data from GPe is used to train GPp in extrapolation regions. Changes in interpolation areas show only slight changes. We also observe heterogeneous errors, where model performance varies across different regions of the input space. Overall, this approach offers a practical solution for better extrapolation. Note: An earlier version of this work appeared in the GECCO 2025 Workshop on Symbolic Regression. This arXiv version corrects several parts of the original submission.
- Abstract(参考訳): トレーニングデータの範囲内で予測を行う場合、多くの機械学習モデルはうまく機能するが、その外挿が必要な場合には、しばしば苦労する。
遺伝的プログラミング(GP)を用いた記号回帰(SR)はフレキシブルなモデルを生成することができるが、外挿において信頼性の低い振る舞いをする傾向がある。
本稿では,合成データの追加が,このような場合の性能向上に有効かどうかを考察する。
トレーニングデータが少ない入力空間内の領域を特定するためにカーネル密度推定(KDE)を適用する。
教師モデルは、新しい入力ポイントの予測を生成し、学生モデルを訓練するために使用される。
本研究では、ニューラルネットワーク(NN)、ランダムフォレスト(RF)、GPを教師モデル(合成データを生成する)、学生モデル(拡張データに基づいて学習)として6つのベンチマークデータセットで評価する。
その結果,GPモデルは,特に外挿領域において,合成データに基づいてトレーニングすることでしばしば改善できることがわかった。
しかし、改善は使用されるデータセットと教師モデルに依存します。
GPeの合成データを用いて外挿領域のGPpを訓練する場合、最も重要な改善が観察される。
補間領域の変化はわずかな変化しか示さない。
また、入力空間の異なる領域でモデル性能が変化する異種誤差も観察する。
全体として、このアプローチはより良い外挿のための実用的なソリューションを提供する。
注: この研究の初期のバージョンは、GECCO 2025 Workshop on Symbolic Regressionに登場した。
このarXivバージョンは、元のサブミッションのいくつかの部分を修正します。
関連論文リスト
- Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Generalized Regression with Conditional GANs [2.4171019220503402]
本稿では,学習データセットにおける特徴ラベルペアと,対応する入力と組み合わせて出力を区別できない予測関数を学習することを提案する。
回帰に対するこのアプローチは、私たちが適合するデータの分布に対する仮定を減らし、表現能力が向上することを示す。
論文 参考訳(メタデータ) (2024-04-21T01:27:47Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Environmental Sensor Placement with Convolutional Gaussian Neural
Processes [65.13973319334625]
センサーは、特に南極のような遠隔地において、その測定の情報量が最大になるように配置することは困難である。
確率論的機械学習モデルは、予測の不確実性を最大限に低減するサイトを見つけることによって、情報的センサ配置を提案することができる。
本稿では,これらの問題に対処するために,畳み込み型ガウスニューラルプロセス(ConvGNP)を提案する。
論文 参考訳(メタデータ) (2022-11-18T17:25:14Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance [0.5735035463793008]
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
論文 参考訳(メタデータ) (2021-11-03T20:28:24Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models [0.0]
機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
論文 参考訳(メタデータ) (2021-04-02T20:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。