論文の概要: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning
- arxiv url: http://arxiv.org/abs/2501.08723v1
- Date: Wed, 15 Jan 2025 11:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:14.102612
- Title: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning
- Title(参考訳): OSINTと機械学習を用いた多言語メールフィッシング攻撃検出
- Authors: Panharith An, Rana Shafi, Tionge Mughogho, Onyango Allan Onyango,
- Abstract要約: 本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Email phishing remains a prevalent cyber threat, targeting victims to extract sensitive information or deploy malicious software. This paper explores the integration of open-source intelligence (OSINT) tools and machine learning (ML) models to enhance phishing detection across multilingual datasets. Using Nmap and theHarvester, this study extracted 17 features, including domain names, IP addresses, and open ports, to improve detection accuracy. Multilingual email datasets, including English and Arabic, were analyzed to address the limitations of ML models trained predominantly on English data. Experiments with five classification algorithms: Decision Tree, Random Forest, Support Vector Machine, XGBoost, and Multinomial Na\"ive Bayes. It revealed that Random Forest achieved the highest performance, with an accuracy of 97.37% for both English and Arabic datasets. For OSINT-enhanced datasets, the model demonstrated an improvement in accuracy compared to baseline models without OSINT features. These findings highlight the potential of combining OSINT tools with advanced ML models to detect phishing emails more effectively across diverse languages and contexts. This study contributes an approach to phishing detection by incorporating OSINT features and evaluating their impact on multilingual datasets, addressing a critical gap in cybersecurity research.
- Abstract(参考訳): 電子メールのフィッシングは、被害者が機密情報を抽出したり、悪意のあるソフトウェアをデプロイすることを狙うサイバー脅威として、依然として広く利用されている。
本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
英語とアラビア語を含む多言語メールデータセットを解析し、主に英語データに基づいて訓練されたMLモデルの限界に対処した。
決定木(Decision Tree)、ランダムフォレスト(Random Forest)、サポートベクトルマシン(Support Vector Machine)、XGBoost(XGBoost)、マルチノードNa\"ive Bayes(Multinomial Na\"ive Bayes)の5つの分類アルゴリズムによる実験。
ランダムフォレストは、英語とアラビア語の両方のデータセットで97.37%の精度で最高性能を達成した。
OSINTの強化されたデータセットでは、OSINTの機能を持たないベースラインモデルと比較して精度が向上した。
これらの結果は、OSINTツールと高度なMLモデルを組み合わせることで、さまざまな言語やコンテキストでより効果的にフィッシングメールを検出する可能性を浮き彫りにした。
本研究は、OSINT機能を取り入れたフィッシング検出へのアプローチと、多言語データセットへの影響を評価し、サイバーセキュリティ研究における重要なギャップに対処する。
関連論文リスト
- Enhancing Phishing Email Identification with Large Language Models [0.40792653193642503]
フィッシングメールの検出における大規模言語モデル(LLM)の有効性について検討した。
実験により, LLMは高精度で高い精度を達成することが示された。
論文 参考訳(メタデータ) (2025-02-07T08:45:50Z) - Multi-Lingual Cyber Threat Detection in Tweets/X Using ML, DL, and LLM: A Comparative Analysis [0.0]
サイバー脅威検出は、今日のデジタル時代において重要な領域となっている。
本研究は,様々な高度なモデルを用いた多言語ツイートによるサイバー脅威検出に焦点を当てた。
ツイートデータセットを英語、中国語、ロシア語、アラビア語の4言語で収集し、ラベル付けしました。
論文 参考訳(メタデータ) (2025-02-04T03:46:24Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。