論文の概要: Modified Genetic Algorithm for Feature Selection and Hyper Parameter
Optimization: Case of XGBoost in Spam Prediction
- arxiv url: http://arxiv.org/abs/2310.19845v1
- Date: Mon, 30 Oct 2023 09:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:29:06.923623
- Title: Modified Genetic Algorithm for Feature Selection and Hyper Parameter
Optimization: Case of XGBoost in Spam Prediction
- Title(参考訳): 特徴選択とハイパーパラメータ最適化のための修正遺伝的アルゴリズム:スパム予測におけるXGBoostの場合
- Authors: Nazeeh Ghatasheh, Ismail Altaharwa, Khaled Aldebei
- Abstract要約: Twitterはスパムコンテンツを広めるメディアとして好まれている。
Twitterは、機能領域のサイズと不均衡なデータ分散に代表される余分な課題をもたらした。
不均衡なデータセットに対する同時次元削減とハイパーパラメータ最適化のための改良された遺伝的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.06906005491572399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, spam on online social networks has attracted attention in the
research and business world. Twitter has become the preferred medium to spread
spam content. Many research efforts attempted to encounter social networks
spam. Twitter brought extra challenges represented by the feature space size,
and imbalanced data distributions. Usually, the related research works focus on
part of these main challenges or produce black-box models. In this paper, we
propose a modified genetic algorithm for simultaneous dimensionality reduction
and hyper parameter optimization over imbalanced datasets. The algorithm
initialized an eXtreme Gradient Boosting classifier and reduced the features
space of tweets dataset; to generate a spam prediction model. The model is
validated using a 50 times repeated 10-fold stratified cross-validation, and
analyzed using nonparametric statistical tests. The resulted prediction model
attains on average 82.32\% and 92.67\% in terms of geometric mean and accuracy
respectively, utilizing less than 10\% of the total feature space. The
empirical results show that the modified genetic algorithm outperforms $Chi^2$
and $PCA$ feature selection methods. In addition, eXtreme Gradient Boosting
outperforms many machine learning algorithms, including BERT-based deep
learning model, in spam prediction. Furthermore, the proposed approach is
applied to SMS spam modeling and compared to related works.
- Abstract(参考訳): 近年,オンラインソーシャルネットワークのスパムが研究・ビジネス界で注目を集めている。
Twitterはスパムコンテンツを広めるメディアとして好まれている。
多くの研究がソーシャルネットワークのスパムに遭遇しようとした。
Twitterは、機能領域のサイズと不均衡なデータ分散によって、さらなる課題をもたらした。
通常、関連する研究は、これらの主な課題の一部やブラックボックスモデルの作成に焦点を当てている。
本稿では,不均衡データセット上での次元性低減とハイパーパラメータ最適化を同時に行う遺伝的アルゴリズムを提案する。
このアルゴリズムは、eXtreme Gradient Boosting分類器を初期化し、ツイートデータセットの特徴空間を縮小し、スパム予測モデルを生成する。
このモデルは10倍成層クロスバリデーションを50回繰り返して検証し、非パラメトリック統計テストを用いて分析する。
その結果得られた予測モデルは、幾何平均と精度でそれぞれ82.32\%と92.67\%で達成され、総特徴空間の10\%未満である。
その結果,改良された遺伝的アルゴリズムは,Chi^2$と$PCA$の特徴選択法よりも優れていた。
さらに、eXtreme Gradient Boostingは、スパム予測においてBERTベースのディープラーニングモデルを含む多くの機械学習アルゴリズムを上回っている。
さらに,提案手法をsmsスパムモデリングに適用し,関連する手法と比較した。
関連論文リスト
- Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Hybrid Genetic Algorithm and Hill Climbing Optimization for the Neural
Network [0.0]
CIFAR-100データセット上での畳み込みニューラルネットワーク(CNN)の最適化のための遺伝的アルゴリズムとヒルクライミングアルゴリズムを組み合わせたハイブリッドモデルを提案する。
提案したハイブリッドモデルでは, 標準アルゴリズムと比較して, より少ない世代で精度が向上する。
論文 参考訳(メタデータ) (2023-08-24T22:03:18Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - From Understanding Genetic Drift to a Smart-Restart Mechanism for
Estimation-of-Distribution Algorithms [16.904475483445452]
我々は,分布推定アルゴリズム(EDAs)のためのスマートリスタート機構を開発する。
遺伝的ドリフトのリスクが高い場合、実行を停止することで、適切なパラメーター条件下でEDAを自動的に実行します。
スマートリスタート機構は,文献で示唆されるものよりも,集団サイズに対してはるかに優れた値を見出すことを示す。
論文 参考訳(メタデータ) (2022-06-18T02:46:52Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Survival Prediction of Children Undergoing Hematopoietic Stem Cell
Transplantation Using Different Machine Learning Classifiers by Performing
Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。
欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。
この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文 参考訳(メタデータ) (2022-01-22T08:01:22Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Quantum-Assisted Feature Selection for Vehicle Price Prediction Modeling [0.0]
本研究では,一般平均情報係数やピアソン相関係数などの二元モデルとして検索を符号化する指標について検討する。
我々は,新しい指標を用いて合成データの最適部分集合を求めるための0.9の精度スコアを得る。
その結果、量子支援ルーチンを活用することで、予測モデル出力の品質を高めるソリューションが見つかることが分かりました。
論文 参考訳(メタデータ) (2021-04-08T20:48:44Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Gaussian Process Boosting [6.85316573653194]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。