論文の概要: A Comparative Study of Model Selection Criteria for Symbolic Regression
- arxiv url: http://arxiv.org/abs/2605.11233v1
- Date: Mon, 11 May 2026 20:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.425488
- Title: A Comparative Study of Model Selection Criteria for Symbolic Regression
- Title(参考訳): シンボリック回帰のためのモデル選択基準の比較検討
- Authors: Ali Soltani, Gabriel Kronberger, Fabricio Olivetti de Franca, Mattia Billa, Alessandro Lucantonio,
- Abstract要約: 本研究では, 接地構造関数の摂動によって生成される候補式をランク付けし, 接地構造関数の一般化誤差と選択確率を評価する。
以上の結果から,MDLは,ほとんどのデータセットでテストエラーが最も低く,最短長のモデルを一貫して識別することがわかった。
- 参考スコア(独自算出の注目度): 37.31373989245858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective model selection is critical in symbolic regression (SR) to identify mathematical expressions that balance accuracy and complexity, and have low expected error on unseen data. Many modern implementations of genetic programming (GP) for SR generate a set of Pareto optimal candidate solutions, but reliable automatic selection of solutions that generalize well remains an open issue. Current literature offers various information-theoretic and Bayesian approaches, yet comprehensive comparisons of their performance across different data regimes are limited. This study presents a systematic empirical comparison of widely used selection criteria: the Akaike information criterion (AIC), the corrected AIC (AICc), the Bayesian information criterion (BIC), minimum description length (MDL), as well as Efron's bootstrap estimate for the in-sample prediction error on seven synthetic datasets with Gaussian noise. We rank candidate expressions generated by perturbing ground-truth functions to assess generalization error and selection probability of the ground-truth expression. Our findings reveal that MDL consistently identifies models with the lowest test error and the shortest length across most datasets. While no single criterion dominates all results, MDL and BIC produced the highest probability of selecting the ground-truth expressions.
- Abstract(参考訳): 有効モデル選択は、精度と複雑性のバランスをとる数学的表現を識別し、予期しないデータに対して低い誤差を持つために、記号回帰(SR)において重要である。
SRに対する遺伝的プログラミング(GP)の現代の実装の多くは、パレート最適候補解の集合を生成するが、よく一般化する解の信頼性の高い自動選択は未解決のままである。
現在の文献では、様々な情報理論とベイズ的アプローチが提供されているが、それらの性能の様々なデータレギュレーションに対する包括的な比較は限られている。
本研究では, Akaike Information criterion (AIC), corrected AIC (AICc), the Bayesian Information criterion (BIC), minimum description length (MDL) およびEfron のブートストラップ推定値を用いて, ガウス雑音のある7つの合成データセットのインサンプル予測誤差を推定した。
本研究では, 接地構造関数の摂動によって生成される候補式をランク付けし, 接地構造関数の一般化誤差と選択確率を評価する。
以上の結果から,MDLは,ほとんどのデータセットでテストエラーが最も低く,最短長のモデルを一貫して識別することがわかった。
MDLとBICは,全ての結果に対して単一の基準が支配的ではないが,基幹構文を選択する確率が最も高かった。
関連論文リスト
- Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Minimum variance threshold for epsilon-lexicase selection [0.7373617024876725]
メソッドは、両親を選択するための基準として、データセット全体の平均エラーに依存することが多い。
本稿では,エラーを2つの分割に分割し,分割における全分散を最小化する新しい基準を提案する。
実世界のデータセットにおける従来のepsilon-lexicase選択と比較して,本手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-08T23:47:26Z) - Maximum Likelihood Estimation is All You Need for Well-Specified
Covariate Shift [34.414261291690856]
現代の機械学習システムの鍵となる課題は、アウト・オブ・ディストリビューション(OOD)の一般化を達成することである。
音源データを用いた古典的最大等化推定(MLE)が極小最適化を実現することを示す。
3つの具体例にインスタンス化することで、フレームワークの幅広い適用性を説明します。
論文 参考訳(メタデータ) (2023-11-27T16:06:48Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - A Compressive Classification Framework for High-Dimensional Data [12.284934135116515]
本稿では,データ次元がサンプルサイズよりもかなり高い設定のための圧縮分類フレームワークを提案する。
提案手法は線形判別分析に基づく正規化判別分析(CRDA)と呼ばれる。
識別規則における強しきい値化を促進するジョイントスパーシティを用いることで、重要な特徴を選択できる。
論文 参考訳(メタデータ) (2020-05-09T06:55:00Z) - Robust Generalised Quadratic Discriminant Analysis [6.308539010172309]
GQDAにおける分類規則は, サンプル平均ベクトルとトレーニングサンプルのサンプル分散行列に基づいており, データの汚染下では極めて非腐食である。
本稿では, GQDA分類器の性能について, 平均ベクトルとそれを用いた分散行列の古典的推定器を, 様々な頑健な推定器に置き換えた際の検討を行った。
論文 参考訳(メタデータ) (2020-04-11T18:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。