論文の概要: Advancing Malicious Website Identification: A Machine Learning Approach Using Granular Feature Analysis
- arxiv url: http://arxiv.org/abs/2409.07608v1
- Date: Wed, 11 Sep 2024 20:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:31:44.606828
- Title: Advancing Malicious Website Identification: A Machine Learning Approach Using Granular Feature Analysis
- Title(参考訳): 悪意のあるウェブサイト識別の促進:粒状特徴分析を用いた機械学習アプローチ
- Authors: Kinh Tran, Dusan Sovilj,
- Abstract要約: 私たちの目標は、これらの細部をトレーニングした機械学習モデルを作ることです。
77の機能を提案し,9つのWebサイト分類にまたがる441,701のデータセットを作成し,モデルをトレーニングした。
私たちの最高のパフォーマンスモデルは、ウェブサイトを95.89%の精度スコアで9つの分類のうち1つに分類することができた。
- 参考スコア(独自算出の注目度): 0.4972323953932129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious website detection is an increasingly relevant yet intricate task that requires the consideration of a vast amount of fine details. Our objective is to create a machine learning model that is trained on as many of these finer details as time will allow us to classify a website as benign or malicious. If malicious, the model will classify the role it plays (phishing, spam, malware hosting, etc.). We proposed 77 features and created a dataset of 441,701 samples spanning 9 website classifications to train our model. We grouped the proposed features into feature subsets based on the time and resources required to compute these features and the performance changes with the inclusion of each subset to the model. We found that the performance of the best performing model increased as more feature subsets were introduced. In the end, our best performing model was able to classify websites into 1 of 9 classifications with a 95.89\% accuracy score. We then investigated how well the features we proposed ranked in importance and detail the top 10 most relevant features according to our models. 2 of our URL embedding features were found to be the most relevant by our best performing model, with content-based features representing half of the top 10 spots. The rest of the list was populated with singular features from different feature categories including: a host feature, a robots.txt feature, a lexical feature, and a passive domain name system feature.
- Abstract(参考訳): 悪意のあるWebサイト検出は、ますます関連性が高く、複雑なタスクであり、大量の詳細を考慮しなければならない。
私たちの目標は、これらの細部をトレーニングした機械学習モデルを作ることです。
悪意のある場合は、そのモデルが果たす役割(フィッシング、スパム、マルウェアホスティングなど)を分類する。
77の機能を提案し,9つのWebサイト分類にまたがる441,701のデータセットを作成し,モデルをトレーニングした。
提案した機能を、これらの特徴を計算するのに必要な時間とリソースと、各サブセットをモデルに含めることによるパフォーマンスの変化に基づいて、機能サブセットにグループ化した。
その結果,機能サブセットの導入に伴って,最高のパフォーマンスモデルの性能が向上することが判明した。
最終的に、我々の最高のパフォーマンスモデルは、95.89\%の精度スコアでウェブサイトを9つの分類のうち1つに分類することができた。
次に、提案した機能がいかに重要度にランク付けされ、我々のモデルによる最も関連性の高い機能のトップ10について詳細に検討した。
URL埋め込み機能のうち2つは、最高のパフォーマンスモデルによって最も関連性があり、コンテンツベースの機能はトップ10のポイントの半分を占めています。
リストの残りの部分には、ホスト機能、ロボット.txt機能、語彙機能、受動的ドメイン名システム機能など、さまざまな機能カテゴリの特異な機能が含まれていた。
関連論文リスト
- Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Which is the best model for my data? [0.0]
提案されたメタ学習アプローチは、機械学習に依存し、4つの主要なステップを含む。
本稿では,正と負の測度を含む集約測度値において,情報消去の問題に対処する62のメタ特徴の集合について述べる。
我々のメタ学習アプローチは、合成データセットの91%と実世界のデータセットの87%に対して、最適なモデルを正確に予測できることを示します。
論文 参考訳(メタデータ) (2022-10-26T13:15:43Z) - Ensembling improves stability and power of feature selection for deep
learning models [11.973624420202388]
本稿では,ディープラーニングモデルの設計と訓練における本質性によって,一般的に用いられる特徴重要度スコアが不安定になることを示す。
我々は、異なるエポックにおけるモデルの重要度スコアのアンサンブルについて検討し、この単純なアプローチがこの問題に実質的に対処できることを見出した。
訓練されたモデルの特徴的重要度を組み合わせるためのフレームワークを提案し、一つのベストモデルから特徴を選択する代わりに、多くの優れたモデルから特徴的重要度スコアのアンサンブルを実行する。
論文 参考訳(メタデータ) (2022-10-02T19:07:53Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Using Person Embedding to Enrich Features and Data Augmentation for
Classification [0.0]
フラッド検出分類モデルは、ケーススタディとしてラベル付きおよび不均衡データセット上に構築される。
顧客埋め込み手法は、分類モデルの成功に肯定的な影響を及ぼした。
論文 参考訳(メタデータ) (2022-06-30T09:48:27Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Compositional Fine-Grained Low-Shot Learning [58.53111180904687]
そこで本研究では,ゼロおよび少数ショット学習のための新しい合成生成モデルを構築し,学習サンプルの少ない,あるいは全くない,きめ細かいクラスを認識する。
本稿では, 学習サンプルから属性特徴を抽出し, それらを組み合わせて, 稀で見えないクラスのためのきめ細かい特徴を構築できる特徴合成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-21T16:18:24Z) - Neural Ranking Models for Document Retrieval [11.886543741028127]
ランキングに対するいくつかのアプローチは、手作りの機能セットを使った従来の機械学習アルゴリズムに基づいている。
ディープラーニングモデルは、ランキングタスクの生データから機能を抽出するためにエンドツーエンドでトレーニングされる。
さまざまなディープラーニングモデルが提案されており、各モデルはランキングに使用される特徴を抽出するためのニューラルネットワークコンポーネントのセットを提示している。
論文 参考訳(メタデータ) (2021-02-23T19:30:37Z) - Multi-Attribute Enhancement Network for Person Search [7.85420914437147]
人物探索は、人物検出と人物再識別(Re-ID)の問題を共同で解くように設計されている
視覚的な文字属性は、Re-IDで検索されたが、Person Searchで無視されたクエリ人物を取得する上で重要な役割を果たします。
本稿では,属性学習をモデルに導入し,属性機能を検索タスクに活用する。
論文 参考訳(メタデータ) (2021-02-16T05:43:47Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。