論文の概要: Data-Informed Model Complexity Metric for Optimizing Symbolic Regression Models
- arxiv url: http://arxiv.org/abs/2501.17372v1
- Date: Wed, 29 Jan 2025 01:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:56.210295
- Title: Data-Informed Model Complexity Metric for Optimizing Symbolic Regression Models
- Title(参考訳): シンボリック回帰モデル最適化のためのデータインフォームドモデル複雑度測定
- Authors: Nathan Haut, Zenas Huang, Adam Alessio,
- Abstract要約: 後処理選択におけるヘッセン階数を用いたモデル複雑性推定のための実用的手法を提案する。
本手法は,内在的次元性(ID)推定器を用いて計算した入力データ量とモデル選択を一致させる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Choosing models from a well-fitted evolved population that generalizes beyond training data is difficult. We introduce a pragmatic method to estimate model complexity using Hessian rank for post-processing selection. Complexity is approximated by averaging the model output Hessian rank across a few points (N=3), offering efficient and accurate rank estimates. This method aligns model selection with input data complexity, calculated using intrinsic dimensionality (ID) estimators. Using the StackGP system, we develop symbolic regression models for the Penn Machine Learning Benchmark and employ twelve scikit-dimension library methods to estimate ID, aligning model expressiveness with dataset ID. Our data-informed complexity metric finds the ideal complexity window, balancing model expressiveness and accuracy, enhancing generalizability without bias common in methods reliant on user-defined parameters, such as parsimony pressure in weight selection.
- Abstract(参考訳): トレーニングデータを超えて一般化する、十分に適合した進化した人口からモデルを選択することは難しい。
後処理選択におけるヘッセン階数を用いたモデル複雑性推定のための実用的手法を提案する。
複雑性は数点 (N=3) にわたってモデル出力のヘッセンランクを平均化し、効率的で正確なランク推定を提供することによって近似される。
本手法は,内在的次元性(ID)推定器を用いて計算した入力データ量とモデル選択を一致させる。
StackGPシステムを用いて、Penn Machine Learning Benchmarkのシンボリック回帰モデルを開発し、12のシキト次元ライブラリ法を用いてIDを推定し、モデル表現性をデータセットIDと整合させる。
我々のデータインフォームド複雑性メトリクスは、理想的な複雑性ウィンドウを見つけ、モデル表現性と精度のバランスをとり、重み選択におけるパーシモニー圧力など、ユーザ定義パラメータに依存する手法において偏りのない一般化性を高める。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Fusion of Gaussian Processes Predictions with Monte Carlo Sampling [61.31380086717422]
科学と工学において、私たちはしばしば興味のある変数の正確な予測のために設計されたモデルで作業します。
これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。
論文 参考訳(メタデータ) (2024-03-03T04:21:21Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Optimally Weighted Ensembles of Regression Models: Exact Weight
Optimization and Applications [0.0]
異なる回帰モデルを組み合わせることで、単一の(ベストな)回帰モデルを選択するよりも良い結果が得られることを示す。
不均一回帰モデルから最適重み付き線形結合を求める効率的な手法を概説する。
論文 参考訳(メタデータ) (2022-06-22T09:11:14Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Machine learning with incomplete datasets using multi-objective
optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。
命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。
NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文 参考訳(メタデータ) (2020-12-04T03:44:33Z) - Applying Evolutionary Metaheuristics for Parameter Estimation of
Individual-Based Models [0.0]
本稿では,進化的手法を用いたパラメータ推定を簡略化するRパッケージであるEvoPERを紹介する。
本稿では,進化的手法を用いたパラメータ推定を簡略化するRパッケージであるEvoPERを紹介する。
論文 参考訳(メタデータ) (2020-05-24T07:48:27Z) - Semi-analytic approximate stability selection for correlated data in
generalized linear models [3.42658286826597]
そこで本研究では,繰り返しのフィッティングを行なわずに安定選択を行うことのできる,新しい近似推論アルゴリズムを提案する。
このアルゴリズムは,情報理論の統計力学とベクトル近似メッセージパッシングの複製法に基づく。
数値実験により, このアルゴリズムは, 合成データと実世界のデータの両方に対して, 高速収束と高い近似精度を示すことを示した。
論文 参考訳(メタデータ) (2020-03-19T10:43:12Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。