論文の概要: Can Features for Phishing URL Detection Be Trusted Across Diverse Datasets? A Case Study with Explainable AI
- arxiv url: http://arxiv.org/abs/2411.09813v2
- Date: Fri, 22 Nov 2024 16:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:32.752961
- Title: Can Features for Phishing URL Detection Be Trusted Across Diverse Datasets? A Case Study with Explainable AI
- Title(参考訳): 異なるデータセット間で信頼されるURL検出の特徴 : 説明可能なAIを用いたケーススタディ
- Authors: Maraz Mia, Darius Derakhshan, Mir Mehedi A. Pritom,
- Abstract要約: フィッシング(Phishing)は、ユーザーを操り、偽装戦術によって機密性の高い個人情報を暴露するサイバー脅威として広く利用されている。
フィッシングURL(またはウェブサイト)を積極的に検出することは、広く受け入れられた防衛アプローチとして確立されている。
公開されている2つのフィッシングURLデータセットを分析し、それぞれのデータセットにはURL文字列とWebサイトコンテンツに関連する独自の、重複した機能セットがあります。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Phishing has been a prevalent cyber threat that manipulates users into revealing sensitive private information through deceptive tactics, designed to masquerade as trustworthy entities. Over the years, proactively detection of phishing URLs (or websites) has been established as an widely-accepted defense approach. In literature, we often find supervised Machine Learning (ML) models with highly competitive performance for detecting phishing websites based on the extracted features from both phishing and benign (i.e., legitimate) websites. However, it is still unclear if these features or indicators are dependent on a particular dataset or they are generalized for overall phishing detection. In this paper, we delve deeper into this issue by analyzing two publicly available phishing URL datasets, where each dataset has its own set of unique and overlapping features related to URL string and website contents. We want to investigate if overlapping features are similar in nature across datasets and how does the model perform when trained on one dataset and tested on the other. We conduct practical experiments and leverage explainable AI (XAI) methods such as SHAP plots to provide insights into different features' contributions in case of phishing detection to answer our primary question, "Can features for phishing URL detection be trusted across diverse dataset?". Our case study experiment results show that features for phishing URL detection can often be dataset-dependent and thus may not be trusted across different datasets even though they share same set of feature behaviors.
- Abstract(参考訳): フィッシング(英: Phishing)は、詐欺的な戦術によってユーザーの機密情報を明らかにするサイバー脅威として広く利用されている。
何年もの間、フィッシングURL(またはウェブサイト)を積極的に検出することが広く受け入れられた防衛アプローチとして確立されてきた。
文献では、フィッシングとベニグニ(正当性)の両方のウェブサイトから抽出された特徴に基づいてフィッシングウェブサイトを検出するために、高い競争力を持つ教師付き機械学習(ML)モデルを見つけることが多い。
しかし、これらの特徴や指標が特定のデータセットに依存しているのか、あるいは全体的なフィッシング検出のために一般化されているのかは、まだ不明である。
本稿では,2つの公開可能なフィッシングURLデータセットを分析し,各データセットには,URL文字列とWebサイトコンテンツに関連する,独自の,重複した特徴セットがある,という問題を深く掘り下げる。
オーバーラップする機能がデータセットにまたがって本質的に類似しているかどうか、あるデータセットでトレーニングし、他方でテストした場合、モデルがどのように機能するのか、調査したいと考えています。
私たちは実践的な実験を行い、SHAPプロットのような説明可能なAI(XAI)手法を活用して、フィッシング検出時のさまざまな特徴のコントリビューションに関する洞察を提供する。
ケーススタディ実験の結果、フィッシングURL検出の機能はデータセットに依存している場合が多く、同じ機能の振る舞いを共有しているにもかかわらず、異なるデータセット間で信頼できない場合があることがわかった。
関連論文リスト
- PhishNet: A Phishing Website Detection Tool using XGBoost [1.777434178384403]
PhisNetは最先端のWebアプリケーションで、高度な機械学習を使ってフィッシングサイトを検出するように設計されている。
個人や組織が堅牢なAIフレームワークを通じてフィッシング攻撃を特定し予防することを目的としている。
論文 参考訳(メタデータ) (2024-06-29T21:31:13Z) - PhishGuard: A Convolutional Neural Network Based Model for Detecting Phishing URLs with Explainability Analysis [1.102674168371806]
フィッシングURLの識別は、この問題に対処する最善の方法だ。
フィッシングURLの検出を自動化するために,機械学習と深層学習の手法が提案されている。
本稿では,1次元畳み込みニューラルネットワーク(CNN)を提案する。
論文 参考訳(メタデータ) (2024-04-27T17:13:49Z) - A Sophisticated Framework for the Accurate Detection of Phishing Websites [0.0]
フィッシング(英: Phishing)は、ますます洗練されたサイバー攻撃形態であり、世界中の企業に巨額の経済的損害を与えている。
本稿では,フィッシングサイトを検出するための包括的手法を提案する。
特徴選択, 欲求アルゴリズム, クロスバリデーション, 深層学習を組み合わせて, 洗練された積み重ねアンサンブルを構築している。
論文 参考訳(メタデータ) (2024-03-13T14:26:25Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Mitigating Bias in Machine Learning Models for Phishing Webpage Detection [0.8050163120218178]
フィッシングはよく知られたサイバー攻撃であり、フィッシングウェブページの作成と対応するURLの拡散を中心に展開している。
独自の属性を蒸留し、予測モデルを構築することで、ゼロデイフィッシングURLをプリエンプティブに分類する様々な技術が利用可能である。
この提案は、フィッシング検出ソリューション内の永続的な課題、特に包括的なデータセットを組み立てる予備フェーズに集中している。
本稿では,MLモデルのバイアスを軽減するために開発されたツールの形で,潜在的な解決策を提案する。
論文 参考訳(メタデータ) (2024-01-16T13:45:54Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - PhishSim: Aiding Phishing Website Detection with a Feature-Free Tool [12.468922937529966]
正規化圧縮距離(NCD)を用いたフィッシングサイト検出のための機能フリー手法を提案する。
この尺度は2つのウェブサイトの類似性を圧縮することで計算し、特徴抽出を行う必要がなくなる。
我々はFurthest Point Firstアルゴリズムを用いてフィッシングプロトタイプ抽出を行い、フィッシングWebページのクラスタを表すインスタンスを選択する。
論文 参考訳(メタデータ) (2022-07-13T20:44:03Z) - Finding Facial Forgery Artifacts with Parts-Based Detectors [73.08584805913813]
顔の個々の部分に焦点を絞った一連の偽造検知システムを設計する。
これらの検出器を用いて、FaceForensics++、Celeb-DF、Facebook Deepfake Detection Challengeデータセットの詳細な実験分析を行う。
論文 参考訳(メタデータ) (2021-09-21T16:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。