論文の概要: Modified Genetic Algorithm for Feature Selection and Hyper Parameter
Optimization: Case of XGBoost in Spam Prediction
- arxiv url: http://arxiv.org/abs/2310.19845v1
- Date: Mon, 30 Oct 2023 09:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:29:06.923623
- Title: Modified Genetic Algorithm for Feature Selection and Hyper Parameter
Optimization: Case of XGBoost in Spam Prediction
- Title(参考訳): 特徴選択とハイパーパラメータ最適化のための修正遺伝的アルゴリズム:スパム予測におけるXGBoostの場合
- Authors: Nazeeh Ghatasheh, Ismail Altaharwa, Khaled Aldebei
- Abstract要約: Twitterはスパムコンテンツを広めるメディアとして好まれている。
Twitterは、機能領域のサイズと不均衡なデータ分散に代表される余分な課題をもたらした。
不均衡なデータセットに対する同時次元削減とハイパーパラメータ最適化のための改良された遺伝的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.06906005491572399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, spam on online social networks has attracted attention in the
research and business world. Twitter has become the preferred medium to spread
spam content. Many research efforts attempted to encounter social networks
spam. Twitter brought extra challenges represented by the feature space size,
and imbalanced data distributions. Usually, the related research works focus on
part of these main challenges or produce black-box models. In this paper, we
propose a modified genetic algorithm for simultaneous dimensionality reduction
and hyper parameter optimization over imbalanced datasets. The algorithm
initialized an eXtreme Gradient Boosting classifier and reduced the features
space of tweets dataset; to generate a spam prediction model. The model is
validated using a 50 times repeated 10-fold stratified cross-validation, and
analyzed using nonparametric statistical tests. The resulted prediction model
attains on average 82.32\% and 92.67\% in terms of geometric mean and accuracy
respectively, utilizing less than 10\% of the total feature space. The
empirical results show that the modified genetic algorithm outperforms $Chi^2$
and $PCA$ feature selection methods. In addition, eXtreme Gradient Boosting
outperforms many machine learning algorithms, including BERT-based deep
learning model, in spam prediction. Furthermore, the proposed approach is
applied to SMS spam modeling and compared to related works.
- Abstract(参考訳): 近年,オンラインソーシャルネットワークのスパムが研究・ビジネス界で注目を集めている。
Twitterはスパムコンテンツを広めるメディアとして好まれている。
多くの研究がソーシャルネットワークのスパムに遭遇しようとした。
Twitterは、機能領域のサイズと不均衡なデータ分散によって、さらなる課題をもたらした。
通常、関連する研究は、これらの主な課題の一部やブラックボックスモデルの作成に焦点を当てている。
本稿では,不均衡データセット上での次元性低減とハイパーパラメータ最適化を同時に行う遺伝的アルゴリズムを提案する。
このアルゴリズムは、eXtreme Gradient Boosting分類器を初期化し、ツイートデータセットの特徴空間を縮小し、スパム予測モデルを生成する。
このモデルは10倍成層クロスバリデーションを50回繰り返して検証し、非パラメトリック統計テストを用いて分析する。
その結果得られた予測モデルは、幾何平均と精度でそれぞれ82.32\%と92.67\%で達成され、総特徴空間の10\%未満である。
その結果,改良された遺伝的アルゴリズムは,Chi^2$と$PCA$の特徴選択法よりも優れていた。
さらに、eXtreme Gradient Boostingは、スパム予測においてBERTベースのディープラーニングモデルを含む多くの機械学習アルゴリズムを上回っている。
さらに,提案手法をsmsスパムモデリングに適用し,関連する手法と比較した。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - Rolling the dice for better deep learning performance: A study of randomness techniques in deep neural networks [4.643954670642798]
本稿では,Deep Neural Networks(DNN)における様々なランダム化手法について検討する。
テクニックは、損失関数にノイズを加える、ランダムな勾配更新をマスキングする、データ拡張と重み一般化の4つのタイプに分類される。
完全な実装とデータセットはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-04-05T10:02:32Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - From Understanding Genetic Drift to a Smart-Restart Mechanism for
Estimation-of-Distribution Algorithms [16.904475483445452]
我々は,分布推定アルゴリズム(EDAs)のためのスマートリスタート機構を開発する。
遺伝的ドリフトのリスクが高い場合、実行を停止することで、適切なパラメーター条件下でEDAを自動的に実行します。
スマートリスタート機構は,文献で示唆されるものよりも,集団サイズに対してはるかに優れた値を見出すことを示す。
論文 参考訳(メタデータ) (2022-06-18T02:46:52Z) - Survival Prediction of Children Undergoing Hematopoietic Stem Cell
Transplantation Using Different Machine Learning Classifiers by Performing
Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。
欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。
この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文 参考訳(メタデータ) (2022-01-22T08:01:22Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。