論文の概要: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning
- arxiv url: http://arxiv.org/abs/2501.08723v1
- Date: Wed, 15 Jan 2025 11:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:14.102612
- Title: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning
- Title(参考訳): OSINTと機械学習を用いた多言語メールフィッシング攻撃検出
- Authors: Panharith An, Rana Shafi, Tionge Mughogho, Onyango Allan Onyango,
- Abstract要約: 本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Email phishing remains a prevalent cyber threat, targeting victims to extract sensitive information or deploy malicious software. This paper explores the integration of open-source intelligence (OSINT) tools and machine learning (ML) models to enhance phishing detection across multilingual datasets. Using Nmap and theHarvester, this study extracted 17 features, including domain names, IP addresses, and open ports, to improve detection accuracy. Multilingual email datasets, including English and Arabic, were analyzed to address the limitations of ML models trained predominantly on English data. Experiments with five classification algorithms: Decision Tree, Random Forest, Support Vector Machine, XGBoost, and Multinomial Na\"ive Bayes. It revealed that Random Forest achieved the highest performance, with an accuracy of 97.37% for both English and Arabic datasets. For OSINT-enhanced datasets, the model demonstrated an improvement in accuracy compared to baseline models without OSINT features. These findings highlight the potential of combining OSINT tools with advanced ML models to detect phishing emails more effectively across diverse languages and contexts. This study contributes an approach to phishing detection by incorporating OSINT features and evaluating their impact on multilingual datasets, addressing a critical gap in cybersecurity research.
- Abstract(参考訳): 電子メールのフィッシングは、被害者が機密情報を抽出したり、悪意のあるソフトウェアをデプロイすることを狙うサイバー脅威として、依然として広く利用されている。
本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
英語とアラビア語を含む多言語メールデータセットを解析し、主に英語データに基づいて訓練されたMLモデルの限界に対処した。
決定木(Decision Tree)、ランダムフォレスト(Random Forest)、サポートベクトルマシン(Support Vector Machine)、XGBoost(XGBoost)、マルチノードNa\"ive Bayes(Multinomial Na\"ive Bayes)の5つの分類アルゴリズムによる実験。
ランダムフォレストは、英語とアラビア語の両方のデータセットで97.37%の精度で最高性能を達成した。
OSINTの強化されたデータセットでは、OSINTの機能を持たないベースラインモデルと比較して精度が向上した。
これらの結果は、OSINTツールと高度なMLモデルを組み合わせることで、さまざまな言語やコンテキストでより効果的にフィッシングメールを検出する可能性を浮き彫りにした。
本研究は、OSINT機能を取り入れたフィッシング検出へのアプローチと、多言語データセットへの影響を評価し、サイバーセキュリティ研究における重要なギャップに対処する。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。