Fugu-MT 論文翻訳(概要): Modified Genetic Algorithm for Feature Selection and Hyper Parameter Optimization: Case of XGBoost in Spam Prediction

論文の概要: Modified Genetic Algorithm for Feature Selection and Hyper Parameter Optimization: Case of XGBoost in Spam Prediction

arxiv url: http://arxiv.org/abs/2310.19845v1
Date: Mon, 30 Oct 2023 09:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 18:29:06.923623
Title: Modified Genetic Algorithm for Feature Selection and Hyper Parameter Optimization: Case of XGBoost in Spam Prediction
Title（参考訳）: 特徴選択とハイパーパラメータ最適化のための修正遺伝的アルゴリズム:スパム予測におけるXGBoostの場合
Authors: Nazeeh Ghatasheh, Ismail Altaharwa, Khaled Aldebei
Abstract要約: Twitterはスパムコンテンツを広めるメディアとして好まれている。 Twitterは、機能領域のサイズと不均衡なデータ分散に代表される余分な課題をもたらした。不均衡なデータセットに対する同時次元削減とハイパーパラメータ最適化のための改良された遺伝的アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.06906005491572399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, spam on online social networks has attracted attention in the research and business world. Twitter has become the preferred medium to spread spam content. Many research efforts attempted to encounter social networks spam. Twitter brought extra challenges represented by the feature space size, and imbalanced data distributions. Usually, the related research works focus on part of these main challenges or produce black-box models. In this paper, we propose a modified genetic algorithm for simultaneous dimensionality reduction and hyper parameter optimization over imbalanced datasets. The algorithm initialized an eXtreme Gradient Boosting classifier and reduced the features space of tweets dataset; to generate a spam prediction model. The model is validated using a 50 times repeated 10-fold stratified cross-validation, and analyzed using nonparametric statistical tests. The resulted prediction model attains on average 82.32\% and 92.67\% in terms of geometric mean and accuracy respectively, utilizing less than 10\% of the total feature space. The empirical results show that the modified genetic algorithm outperforms $Chi^2$ and $PCA$ feature selection methods. In addition, eXtreme Gradient Boosting outperforms many machine learning algorithms, including BERT-based deep learning model, in spam prediction. Furthermore, the proposed approach is applied to SMS spam modeling and compared to related works.
Abstract（参考訳）: 近年,オンラインソーシャルネットワークのスパムが研究・ビジネス界で注目を集めている。 Twitterはスパムコンテンツを広めるメディアとして好まれている。多くの研究がソーシャルネットワークのスパムに遭遇しようとした。 Twitterは、機能領域のサイズと不均衡なデータ分散によって、さらなる課題をもたらした。通常、関連する研究は、これらの主な課題の一部やブラックボックスモデルの作成に焦点を当てている。本稿では,不均衡データセット上での次元性低減とハイパーパラメータ最適化を同時に行う遺伝的アルゴリズムを提案する。このアルゴリズムは、eXtreme Gradient Boosting分類器を初期化し、ツイートデータセットの特徴空間を縮小し、スパム予測モデルを生成する。このモデルは10倍成層クロスバリデーションを50回繰り返して検証し、非パラメトリック統計テストを用いて分析する。その結果得られた予測モデルは、幾何平均と精度でそれぞれ82.32\%と92.67\%で達成され、総特徴空間の10\%未満である。その結果,改良された遺伝的アルゴリズムは,Chi^2$と$PCA$の特徴選択法よりも優れていた。さらに、eXtreme Gradient Boostingは、スパム予測においてBERTベースのディープラーニングモデルを含む多くの機械学習アルゴリズムを上回っている。さらに,提案手法をsmsスパムモデリングに適用し,関連する手法と比較した。

関連論文リスト

An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Collaborative Prediction: To Join or To Disjoin Datasets [5.9697789282446605]
人口減少を最小限に抑えるために適切なデータセットを選択する実用的なアルゴリズムを開発することの課題について検討する。オラクルの不等式とデータ駆動推定器を活用することにより、アルゴリズムは高い確率で人口減少を低減する。
論文参考訳（メタデータ） (2025-06-12T20:25:07Z)
Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文参考訳（メタデータ） (2025-05-18T21:46:45Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文参考訳（メタデータ） (2024-05-16T01:45:55Z)
Rolling the dice for better deep learning performance: A study of randomness techniques in deep neural networks [4.643954670642798]
本稿では,Deep Neural Networks(DNN)における様々なランダム化手法について検討する。テクニックは、損失関数にノイズを加える、ランダムな勾配更新をマスキングする、データ拡張と重み一般化の4つのタイプに分類される。完全な実装とデータセットはGitHubで入手できる。
論文参考訳（メタデータ） (2024-04-05T10:02:32Z)
Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-09T03:55:09Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms [16.904475483445452]
我々は,分布推定アルゴリズム(EDAs)のためのスマートリスタート機構を開発する。遺伝的ドリフトのリスクが高い場合、実行を停止することで、適切なパラメーター条件下でEDAを自動的に実行します。スマートリスタート機構は,文献で示唆されるものよりも,集団サイズに対してはるかに優れた値を見出すことを示す。
論文参考訳（メタデータ） (2022-06-18T02:46:52Z)
Efficient and Differentiable Conformal Prediction with General Function Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文参考訳（メタデータ） (2022-02-22T18:37:23Z)
Survival Prediction of Children Undergoing Hematopoietic Stem Cell Transplantation Using Different Machine Learning Classifiers by Performing Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文参考訳（メタデータ） (2022-01-22T08:01:22Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文参考訳（メタデータ） (2020-04-06T13:19:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。