論文の概要: Minimum variance threshold for epsilon-lexicase selection
- arxiv url: http://arxiv.org/abs/2404.05909v1
- Date: Mon, 8 Apr 2024 23:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:28:06.438348
- Title: Minimum variance threshold for epsilon-lexicase selection
- Title(参考訳): エプシロン・レキシケース選択のための最小分散しきい値
- Authors: Guilherme Seidyo Imai Aldeia, Fabricio Olivetti de Franca, William G. La Cava,
- Abstract要約: メソッドは、両親を選択するための基準として、データセット全体の平均エラーに依存することが多い。
本稿では,エラーを2つの分割に分割し,分割における全分散を最小化する新しい基準を提案する。
実世界のデータセットにおける従来のepsilon-lexicase選択と比較して,本手法の方が優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parent selection plays an important role in evolutionary algorithms, and many strategies exist to select the parent pool before breeding the next generation. Methods often rely on average error over the entire dataset as a criterion to select the parents, which can lead to an information loss due to aggregation of all test cases. Under epsilon-lexicase selection, the population goes to a selection pool that is iteratively reduced by using each test individually, discarding individuals with an error higher than the elite error plus the median absolute deviation (MAD) of errors for that particular test case. In an attempt to better capture differences in performance of individuals on cases, we propose a new criteria that splits errors into two partitions that minimize the total variance within partitions. Our method was embedded into the FEAT symbolic regression algorithm, and evaluated with the SRBench framework, containing 122 black-box synthetic and real-world regression problems. The empirical results show a better performance of our approach compared to traditional epsilon-lexicase selection in the real-world datasets while showing equivalent performance on the synthetic dataset.
- Abstract(参考訳): 親選択は進化アルゴリズムにおいて重要な役割を担い、次の世代を繁殖する前に親プールを選択するための多くの戦略が存在する。
メソッドは、両親を選択する基準としてデータセット全体の平均エラーに依存することが多く、すべてのテストケースの集約による情報損失につながる可能性がある。
エプシロン・レキシケースの選択では、各検査を個別に使用して反復的に減少する選択プールへ行き、エリートエラーよりも高いエラーと、特定のテストケースに対する中央値の絶対偏差(MAD)を持つ個人を廃棄する。
ケースにおける個人のパフォーマンスの違いをよりよく把握するために、エラーを2つのパーティションに分割し、パーティション内の全分散を最小限に抑える新しい基準を提案する。
提案手法をFEATシンボリック回帰アルゴリズムに組み込み,122個のブラックボックス合成および実世界の回帰問題を含むSRBenchフレームワークを用いて評価した。
実験の結果,実世界のデータセットにおける従来のepsilon-lexicase選択と比較して,合成データセットで同等の性能を示した。
関連論文リスト
- High-dimensional logistic regression with missing data: Imputation, regularization, and universality [7.167672851569787]
我々は高次元リッジ規則化ロジスティック回帰について検討する。
予測誤差と推定誤差の両方を正確に評価する。
論文 参考訳(メタデータ) (2024-10-01T21:41:21Z) - WHOMP: Optimizing Randomized Controlled Trials via Wasserstein Homogeneity [3.05179671246628]
我々は、$textitWasserstein Homogeneity Partition$ (WHOMP)と呼ばれる新しいパーティショニング手法を導入する。
WHOMPは、しばしば不均衡なグループ分割や分割によって生じるタイプIとタイプIIのエラーを最適に最小化する。
論文 参考訳(メタデータ) (2024-09-27T07:38:47Z) - Multi-Group Fairness Evaluation via Conditional Value-at-Risk Testing [24.553384023323332]
本研究では,条件付き値-at-Riskに基づく性能格差のテスト手法を提案する。
性能違反を発見するのに必要なサンプルの複雑さは指数関数的に減少し、群数の平方根によって最も上界にあることを示す。
論文 参考訳(メタデータ) (2023-12-06T19:25:32Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - SUnAA: Sparse Unmixing using Archetypal Analysis [62.997667081978825]
本稿では, 古細菌スパルス解析(SUnAA)を用いた新しい地質学的エラーマップ手法を提案する。
まず,古細菌スパース解析(SunAA)に基づく新しいモデルの設計を行う。
論文 参考訳(メタデータ) (2023-08-09T07:58:33Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Down-Sampled Epsilon-Lexicase Selection for Real-World Symbolic
Regression Problems [1.8047694351309207]
ダウンサンプリングされたエプシロン-レキシケース選択は、エプシロン-レキシケース選択とランダムサブサンプリングを組み合わせることで、シンボリックレグレッションの領域の性能を向上させる。
その結果, 標準のエプシロン-レキシケース選択と比較して, ダウンサンプルのエプシロン-レキシケース選択により多様性が低下することが判明した。
ダウンサンプリングされたエプシロン-レキシケース選択では,標準的なエプシロン-レキシケース選択と比較して解の質が最大85%向上することが観察された。
論文 参考訳(メタデータ) (2023-02-08T19:36:26Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。