論文の概要: Phishing Website Detection through Multi-Model Analysis of HTML Content
- arxiv url: http://arxiv.org/abs/2401.04820v2
- Date: Sun, 10 Mar 2024 11:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:38:33.220983
- Title: Phishing Website Detection through Multi-Model Analysis of HTML Content
- Title(参考訳): HTMLコンテンツのマルチモデル解析によるフィッシングサイトの検出
- Authors: Furkan \c{C}olhak, Mert \.Ilhan Ecevit, Bilal Emir U\c{c}ar, Reiner
Creutzburg, Hasan Da\u{g}
- Abstract要約: 本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The way we communicate and work has changed significantly with the rise of
the Internet. While it has opened up new opportunities, it has also brought
about an increase in cyber threats. One common and serious threat is phishing,
where cybercriminals employ deceptive methods to steal sensitive
information.This study addresses the pressing issue of phishing by introducing
an advanced detection model that meticulously focuses on HTML content. Our
proposed approach integrates a specialized Multi-Layer Perceptron (MLP) model
for structured tabular data and two pretrained Natural Language Processing
(NLP) models for analyzing textual features such as page titles and content.
The embeddings from these models are harmoniously combined through a novel
fusion process. The resulting fused embeddings are then input into a linear
classifier. Recognizing the scarcity of recent datasets for comprehensive
phishing research, our contribution extends to the creation of an up-to-date
dataset, which we openly share with the community. The dataset is meticulously
curated to reflect real-life phishing conditions, ensuring relevance and
applicability. The research findings highlight the effectiveness of the
proposed approach, with the CANINE demonstrating superior performance in
analyzing page titles and the RoBERTa excelling in evaluating page content. The
fusion of two NLP and one MLP model,termed MultiText-LP, achieves impressive
results, yielding a 96.80 F1 score and a 97.18 accuracy score on our research
dataset. Furthermore, our approach outperforms existing methods on the
CatchPhish HTML dataset, showcasing its efficacies.
- Abstract(参考訳): インターネットの普及に伴い、コミュニケーションや仕事の仕方は大きく変化した。
新たな機会が開かれた一方で、サイバー脅威の増加ももたらした。
この研究は、HTMLコンテンツに細心の注意を払ってフォーカスする高度な検出モデルを導入することで、フィッシングの急激な問題に対処する。
提案手法は,構造化表データのための特殊多層パーセプトロン(MLP)モデルと,ページタイトルやコンテンツなどのテキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
これらのモデルからの埋め込みは、新しい融合プロセスによって調和的に結合される。
結果として生じる融合埋め込みは線形分類器に入力される。
包括的なフィッシング研究のための最近のデータセットの不足を認識して、コミュニティとオープンに共有する最新のデータセットの作成に貢献します。
データセットは、実生活のフィッシング条件を反映し、妥当性と適用性を保証するために慎重にキュレートされている。
CANINEはページタイトルの分析に優れた性能を示し,RoBERTaはページコンテンツの評価に優れていた。
2つのNLPと1つのMLPモデルの融合により、96.80 F1スコアと97.18精度スコアが得られた。
さらに,提案手法はCatchPhish HTMLデータセットの既存手法よりも優れており,有効性を示している。
関連論文リスト
- Exploring the Efficacy of Federated-Continual Learning Nodes with Attention-Based Classifier for Robust Web Phishing Detection: An Empirical Investigation [0.0]
Webフィッシングは動的脅威となり、検出システムが最新の戦術に迅速に適応する必要がある。
データを蓄積する従来のアプローチや、定期的にリトレーニングするモデルは、より多くなっています。
本研究では,フェデレーション学習と連続学習を組み合わせた新しいパラダイムを提案し,分散ノードが新たなフィッシングデータのストリーム上で,データを蓄積することなくモデルを継続的に更新することを可能にする。
論文 参考訳(メタデータ) (2024-05-06T14:55:37Z) - A Sophisticated Framework for the Accurate Detection of Phishing Websites [0.0]
フィッシング(英: Phishing)は、ますます洗練されたサイバー攻撃形態であり、世界中の企業に巨額の経済的損害を与えている。
本稿では,フィッシングサイトを検出するための包括的手法を提案する。
特徴選択, 欲求アルゴリズム, クロスバリデーション, 深層学習を組み合わせて, 洗練された積み重ねアンサンブルを構築している。
論文 参考訳(メタデータ) (2024-03-13T14:26:25Z) - AntiPhishStack: LSTM-based Stacked Generalization Model for Optimized
Phishing URL Detection [0.32141666878560626]
本稿では,フィッシングサイトを検出するための2相スタック一般化モデルであるAntiPhishStackを提案する。
このモデルは、URLと文字レベルのTF-IDF特徴の学習を対称的に活用し、新たなフィッシング脅威に対処する能力を高める。
良性およびフィッシングまたは悪意のあるURLを含む2つのベンチマークデータセットに対する実験的検証は、既存の研究と比較して96.04%の精度で、このモデルの例外的な性能を示している。
論文 参考訳(メタデータ) (2024-01-17T03:44:27Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
3つの実世界のデータセットの実験により、FLIPはSOTAベースラインより優れており、様々なIDベースのモデルやPLMと高い互換性を持つことが示された。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。