論文の概要: Malicious URL Detection using optimized Hist Gradient Boosting Classifier based on grid search method
- arxiv url: http://arxiv.org/abs/2406.10286v1
- Date: Wed, 12 Jun 2024 11:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:11:41.799151
- Title: Malicious URL Detection using optimized Hist Gradient Boosting Classifier based on grid search method
- Title(参考訳): 格子探索法による最適化Hist Gradient Boosting Classifierを用いた悪意URL検出
- Authors: Mohammad Maftoun, Nima Shadkam, Seyedeh Somayeh Salehi Komamardakhi, Zulkefli Mansor, Javad Hassannataj Joloudari,
- Abstract要約: 悪意のあるウェブサイトが不正な理由で情報を収集する可能性があるため、オンラインプラットフォームで入力されたデータの正確さを信頼することは困難である。
悪意のあるWebサイトが引き起こすリスクを検出するために,機械学習(ML)ベースの手法を用いることを提案する。
使用されるデータセットには、悪意のあるWebサイトデータの1781のレコードと13の機能が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Trusting the accuracy of data inputted on online platforms can be difficult due to the possibility of malicious websites gathering information for unlawful reasons. Analyzing each website individually becomes challenging with the presence of such malicious sites, making it hard to efficiently list all Uniform Resource Locators (URLs) on a blacklist. This ongoing challenge emphasizes the crucial need for strong security measures to safeguard against potential threats and unauthorized data collection. To detect the risk posed by malicious websites, it is proposed to utilize Machine Learning (ML)-based techniques. To this, we used several ML techniques such as Hist Gradient Boosting Classifier (HGBC), K-Nearest Neighbor (KNN), Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Multi-Layer Perceptron (MLP), Light Gradient Boosting Machine (LGBM), and Support Vector Machine (SVM) for detection of the benign and malicious website dataset. The dataset used contains 1781 records of malicious and benign website data with 13 features. First, we investigated missing value imputation on the dataset. Then, we normalized this data by scaling to a range of zero and one. Next, we utilized the Synthetic Minority Oversampling Technique (SMOTE) to balance the training data since the data set was unbalanced. After that, we applied ML algorithms to the balanced training set. Meanwhile, all algorithms were optimized based on grid search. Finally, the models were evaluated based on accuracy, precision, recall, F1 score, and the Area Under the Curve (AUC) metrics. The results demonstrated that the HGBC classifier has the best performance in terms of the mentioned metrics compared to the other classifiers.
- Abstract(参考訳): 悪意のあるウェブサイトが不正な理由で情報を収集する可能性があるため、オンラインプラットフォームで入力されたデータの正確さを信頼することは困難である。
各Webサイトを個別に分析することは、このような悪意のあるサイトの存在によって困難になり、すべてのUniform Resource Locators(URL)をブラックリストに効率的にリストアップすることが困難になる。
この継続的な課題は、潜在的な脅威や不正なデータ収集から保護するための強力なセキュリティ対策の必要性を強調している。
悪意のあるWebサイトが引き起こすリスクを検出するために,機械学習(ML)ベースの手法を用いることを提案する。
そこで我々は,Hist Gradient Boosting Classifier (HGBC), K-Nearest Neighbor (KNN), Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Multi-Layer Perceptron (MLP), Light Gradient Boosting Machine (LGBM), Support Vector Machine (SVM)などのML手法を,良質で悪意のあるWebサイトデータセットの検出に使用した。
使用されるデータセットには、悪意のあるウェブサイトデータの1781のレコードと13のフィーチャが含まれている。
まず,データセットの不足値計算について検討した。
そして、このデータを0と1の範囲にスケーリングすることで正規化した。
次に、SMOTE(Synthetic Minority Oversampling Technique)を用いて、データセットが不均衡であったため、トレーニングデータのバランスをとる。
その後、バランスの取れたトレーニングセットにMLアルゴリズムを適用した。
一方、全てのアルゴリズムはグリッドサーチに基づいて最適化された。
最後に、モデルの精度、精度、リコール、F1スコア、AUC(Area Under the Curve)メトリクスに基づいて評価した。
その結果, HGBC分類器は, 他の分類器と比較して, 上述の指標で最高の性能を示した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Challenging Machine Learning Algorithms in Predicting Vulnerable JavaScript Functions [2.243674903279612]
最先端の機械学習技術は、JavaScriptプログラムのセキュリティ脆弱性のある関数を予測することができる。
最高性能のアルゴリズムはKNNで、F値0.76の脆弱性関数の予測モデルを作成している。
深層学習,木と林の分類,SVMは0.70以上のF尺度と競合した。
論文 参考訳(メタデータ) (2024-05-12T08:23:42Z) - Performance evaluation of Machine learning algorithms for Intrusion Detection System [0.40964539027092917]
本稿では機械学習(ML)技術を用いた侵入検知システム(IDS)の解析に焦点を当てた。
機械学習モデルのトレーニングと検証に使用されるKDD CUP-'99'侵入検出データセットを分析した。
論文 参考訳(メタデータ) (2023-10-01T06:35:37Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes [0.304585143845864]
機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を保証するために不可欠である。
本稿では,4つの最先端ML手法,すなわちロジスティック回帰,決定木,ランダム森林,極端な勾配上昇について検討する。
フィッシングサイトURLとクレジットカード不正取引データセットは、元のデータに基づいてトレーニングされた極端な勾配が、信頼できるパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2022-09-04T15:30:23Z) - Semantic Preserving Adversarial Attack Generation with Autoencoder and
Genetic Algorithm [29.613411948228563]
小さなノイズは、最先端のモデルを騙して誤った予測をする。
自動エンコーダによって抽出されたデータの潜時特性を変更するブラックボックス攻撃を提案する。
我々は,MNISTとCIFAR-10データセットを用いてオートエンコーダを訓練し,遺伝的アルゴリズムを用いて最適な逆方向摂動を発見した。
論文 参考訳(メタデータ) (2022-08-25T17:27:26Z) - An Adversarial Attack Analysis on Malicious Advertisement URL Detection
Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。
既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。
本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文 参考訳(メタデータ) (2022-04-27T20:06:22Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。