論文の概要: Phishing Website Detection through Multi-Model Analysis of HTML Content
- arxiv url: http://arxiv.org/abs/2401.04820v3
- Date: Wed, 10 Jul 2024 10:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:59:38.349447
- Title: Phishing Website Detection through Multi-Model Analysis of HTML Content
- Title(参考訳): HTMLコンテンツのマルチモデル解析によるフィッシングサイトの検出
- Authors: Furkan Çolhak, Mert İlhan Ecevit, Bilal Emir Uçar, Reiner Creutzburg, Hasan Dağ,
- Abstract要約: 本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The way we communicate and work has changed significantly with the rise of the Internet. While it has opened up new opportunities, it has also brought about an increase in cyber threats. One common and serious threat is phishing, where cybercriminals employ deceptive methods to steal sensitive information.This study addresses the pressing issue of phishing by introducing an advanced detection model that meticulously focuses on HTML content. Our proposed approach integrates a specialized Multi-Layer Perceptron (MLP) model for structured tabular data and two pretrained Natural Language Processing (NLP) models for analyzing textual features such as page titles and content. The embeddings from these models are harmoniously combined through a novel fusion process. The resulting fused embeddings are then input into a linear classifier. Recognizing the scarcity of recent datasets for comprehensive phishing research, our contribution extends to the creation of an up-to-date dataset, which we openly share with the community. The dataset is meticulously curated to reflect real-life phishing conditions, ensuring relevance and applicability. The research findings highlight the effectiveness of the proposed approach, with the CANINE demonstrating superior performance in analyzing page titles and the RoBERTa excelling in evaluating page content. The fusion of two NLP and one MLP model,termed MultiText-LP, achieves impressive results, yielding a 96.80 F1 score and a 97.18 accuracy score on our research dataset. Furthermore, our approach outperforms existing methods on the CatchPhish HTML dataset, showcasing its efficacies.
- Abstract(参考訳): コミュニケーションや仕事の仕方は、インターネットの台頭とともに大きく変化した。
新たな機会が開かれた一方で、サイバー脅威の増加ももたらした。
この研究は、HTMLコンテンツに細心の注意を払ってフォーカスする高度な検出モデルを導入することで、フィッシングの急激な問題に対処する。
提案手法は,構造化表データのための特殊多層パーセプトロン(MLP)モデルと,ページタイトルやコンテンツなどのテキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
これらのモデルからの埋め込みは、新しい融合プロセスを通じて調和して結合される。
結果として生じる融合埋め込みは線形分類器に入力される。
総合的なフィッシング研究のための最近のデータセットの不足を認識し、我々の貢献は、コミュニティとオープンに共有する最新のデータセットの作成にまで及ぶ。
データセットは、実生活のフィッシング条件を反映し、妥当性と適用性を保証するために慎重にキュレートされている。
CANINEはページタイトルの分析に優れた性能を示し,RoBERTaはページコンテンツの評価に優れていた。
2つのNLPと1つのMLPモデルの融合により、96.80 F1スコアと97.18精度スコアが得られた。
さらに,提案手法はCatchPhish HTMLデータセットの既存手法よりも優れており,有効性を示している。
関連論文リスト
- SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection [0.0]
フィッシングは、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を明らかにすることで、組織にとって大きな脅威となる。
本稿では,Large Language Models (LLMs) の顕著な性能を,テキスト分類のような特定のタスクに活用できるかどうかを検討する。
LLMがいかにして説得力のあるフィッシングメールを生成するかを示し、詐欺を見つけるのを難しくする。
論文 参考訳(メタデータ) (2024-06-10T13:13:39Z) - Exploring the Efficacy of Federated-Continual Learning Nodes with Attention-Based Classifier for Robust Web Phishing Detection: An Empirical Investigation [0.0]
Webフィッシングは動的脅威となり、検出システムが最新の戦術に迅速に適応する必要がある。
データを蓄積する従来のアプローチや、定期的にリトレーニングするモデルは、より多くなっています。
本研究では,フェデレーション学習と連続学習を組み合わせた新しいパラダイムを提案し,分散ノードが新たなフィッシングデータのストリーム上で,データを蓄積することなくモデルを継続的に更新することを可能にする。
論文 参考訳(メタデータ) (2024-05-06T14:55:37Z) - A Sophisticated Framework for the Accurate Detection of Phishing Websites [0.0]
フィッシング(英: Phishing)は、ますます洗練されたサイバー攻撃形態であり、世界中の企業に巨額の経済的損害を与えている。
本稿では,フィッシングサイトを検出するための包括的手法を提案する。
特徴選択, 欲求アルゴリズム, クロスバリデーション, 深層学習を組み合わせて, 洗練された積み重ねアンサンブルを構築している。
論文 参考訳(メタデータ) (2024-03-13T14:26:25Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
3つの実世界のデータセットの実験により、FLIPはSOTAベースラインより優れており、様々なIDベースのモデルやPLMと高い互換性を持つことが示された。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。