Fugu-MT 論文翻訳(概要): Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning

論文の概要: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning

arxiv url: http://arxiv.org/abs/2501.08723v1
Date: Wed, 15 Jan 2025 11:05:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.418564
Title: Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning
Title（参考訳）: OSINTと機械学習を用いた多言語メールフィッシング攻撃検出
Authors: Panharith An, Rana Shafi, Tionge Mughogho, Onyango Allan Onyango,
Abstract要約: 本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。 NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Email phishing remains a prevalent cyber threat, targeting victims to extract sensitive information or deploy malicious software. This paper explores the integration of open-source intelligence (OSINT) tools and machine learning (ML) models to enhance phishing detection across multilingual datasets. Using Nmap and theHarvester, this study extracted 17 features, including domain names, IP addresses, and open ports, to improve detection accuracy. Multilingual email datasets, including English and Arabic, were analyzed to address the limitations of ML models trained predominantly on English data. Experiments with five classification algorithms: Decision Tree, Random Forest, Support Vector Machine, XGBoost, and Multinomial Na\"ive Bayes. It revealed that Random Forest achieved the highest performance, with an accuracy of 97.37% for both English and Arabic datasets. For OSINT-enhanced datasets, the model demonstrated an improvement in accuracy compared to baseline models without OSINT features. These findings highlight the potential of combining OSINT tools with advanced ML models to detect phishing emails more effectively across diverse languages and contexts. This study contributes an approach to phishing detection by incorporating OSINT features and evaluating their impact on multilingual datasets, addressing a critical gap in cybersecurity research.
Abstract（参考訳）: 電子メールのフィッシングは、被害者が機密情報を抽出したり、悪意のあるソフトウェアをデプロイすることを狙うサイバー脅威として、依然として広く利用されている。本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。 NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。英語とアラビア語を含む多言語メールデータセットを解析し、主に英語データに基づいて訓練されたMLモデルの限界に対処した。決定木(Decision Tree)、ランダムフォレスト(Random Forest)、サポートベクトルマシン(Support Vector Machine)、XGBoost(XGBoost)、マルチノードNa\"ive Bayes(Multinomial Na\"ive Bayes)の5つの分類アルゴリズムによる実験。ランダムフォレストは、英語とアラビア語の両方のデータセットで97.37%の精度で最高性能を達成した。 OSINTの強化されたデータセットでは、OSINTの機能を持たないベースラインモデルと比較して精度が向上した。これらの結果は、OSINTツールと高度なMLモデルを組み合わせることで、さまざまな言語やコンテキストでより効果的にフィッシングメールを検出する可能性を浮き彫りにした。本研究は、OSINT機能を取り入れたフィッシング検出へのアプローチと、多言語データセットへの影響を評価し、サイバーセキュリティ研究における重要なギャップに対処する。

関連論文リスト

Using Machine Learning to Enhance the Detection of Obfuscated Abusive Words in Swahili: A Focus on Child Safety [0.0]
本研究はスワヒリにおける乱用難読言語の検出に焦点を当てた。スワヒリ語はその人気から選ばれ、アフリカで最も広く話されている言語である。
論文参考訳（メタデータ） (2026-02-13T21:02:14Z)
MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection [0.0]
本稿では,新しいマルチソース・フィッシング・メール・データセットであるMeAJORを提案する。 135894のサンプルが統合されており、フィッシングの戦術と正当なメールが多岐にわたる。複数のカテゴリから幅広い機能を統合することで、データセットは再利用可能な一貫性のあるリソースを提供します。
論文参考訳（メタデータ） (2025-07-23T22:57:08Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は自然言語処理システムに深刻な脅威をもたらします近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文参考訳（メタデータ） (2025-04-08T14:10:57Z)
Enhancing Phishing Email Identification with Large Language Models [0.40792653193642503]
フィッシングメールの検出における大規模言語モデル(LLM)の有効性について検討した。実験により, LLMは高精度で高い精度を達成することが示された。
論文参考訳（メタデータ） (2025-02-07T08:45:50Z)
Multi-Lingual Cyber Threat Detection in Tweets/X Using ML, DL, and LLM: A Comparative Analysis [0.0]
サイバー脅威検出は、今日のデジタル時代において重要な領域となっている。本研究は,様々な高度なモデルを用いた多言語ツイートによるサイバー脅威検出に焦点を当てた。ツイートデータセットを英語、中国語、ロシア語、アラビア語の4言語で収集し、ラベル付けしました。
論文参考訳（メタデータ） (2025-02-04T03:46:24Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文参考訳（メタデータ） (2024-09-20T08:48:51Z)
Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。 2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文参考訳（メタデータ） (2024-01-09T21:08:13Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文参考訳（メタデータ） (2021-10-10T17:19:37Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。