論文の概要: CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection
- arxiv url: http://arxiv.org/abs/2602.09015v2
- Date: Tue, 10 Feb 2026 15:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.224169
- Title: CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection
- Title(参考訳): CIC-Trap4Phish: フィッシングとクイニングアタッチメント検出のための統一マルチフォーマットデータセット
- Authors: Fatemeh Nejati, Mahdi Rabbani, Morteza Eskandarian, Mansur Mirani, Gunjan Piya, Igor Opushnyev, Ali A. Ghorbani, Sajjad Dadkhah,
- Abstract要約: フィッシング攻撃は、サイバー攻撃者が使用する主要な攻撃方法の1つである。
CIC-Trap4Phishデータセットには、フィッシングキャンペーンで一般的に使用される5つのカテゴリにわたる悪意のあるサンプルと良性のあるサンプルの両方が含まれている。
- 参考スコア(独自算出の注目度): 35.21543593148398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phishing attacks represents one of the primary attack methods which is used by cyber attackers. In many cases, attackers use deceptive emails along with malicious attachments to trick users into giving away sensitive information or installing malware while compromising entire systems. The flexibility of malicious email attachments makes them stand out as a preferred vector for attackers as they can embed harmful content such as malware or malicious URLs inside standard document formats. Although phishing email defenses have improved a lot, attackers continue to abuse attachments, enabling malicious content to bypass security measures. Moreover, another challenge that researches face in training advance models, is lack of an unified and comprehensive dataset that covers the most prevalent data types. To address this gap, we generated CIC-Trap4Phish, a multi-format dataset containing both malicious and benign samples across five categories commonly used in phishing campaigns: Microsoft Word documents, Excel spreadsheets, PDF files, HTML pages, and QR code images. For the first four file types, a set of execution-free static feature pipeline was proposed, designed to capture structural, lexical, and metadata-based indicators without the need to open or execute files. Feature selection was performed using a combination of SHAP analysis and feature importance, yielding compact, discriminative feature subsets for each file type. The selected features were evaluated by using lightweight machine learning models, including Random Forest, XGBoost, and Decision Tree. All models demonstrate high detection accuracy across formats. For QR code-based phishing (quishing), two complementary methods were implemented: image-based detection by employing Convolutional Neural Networks (CNNs) and lexical analysis of decoded URLs using recent lightweight language models.
- Abstract(参考訳): フィッシング攻撃は、サイバー攻撃者が使用する主要な攻撃方法の1つである。
多くの場合、攻撃者は詐欺メールと悪意のある添付ファイルを使ってユーザーを騙して機密情報を流したり、マルウェアをインストールしたりする。
悪意のあるEメールアタッチメントの柔軟性は、攻撃者が標準文書フォーマット内にマルウェアや悪意のあるURLなどの有害なコンテンツを埋め込むことができるため、攻撃者にとって好ましいベクターとして際立っている。
フィッシングメールの防御は改善されているが、アタッカーはアタッチメントを悪用し続け、悪意のあるコンテンツはセキュリティ対策を回避している。
さらに、トレーニング先進モデルで直面するもうひとつの課題は、最も一般的なデータタイプをカバーする、統一された包括的なデータセットがないことだ。
このギャップに対処するため、私たちは、Microsoft Wordドキュメント、Excelスプレッドシート、PDFファイル、HTMLページ、QRコードイメージという、フィッシングキャンペーンで一般的に使用される5つのカテゴリの悪意のあるサンプルと良識のあるサンプルを含むマルチフォーマットデータセットであるCIC-Trap4Phishを作成した。
最初の4つのファイルタイプでは、ファイルのオープンや実行を必要とせずに構造的、語彙的、メタデータベースのインジケータをキャプチャする、実行不要な静的機能パイプラインが提案された。
特徴選択はSHAP分析と特徴重要度を組み合わせて行い、各ファイルタイプ毎にコンパクトで識別可能な特徴サブセットを得た。
選択された特徴は、Random Forest、XGBoost、Decision Treeなどの軽量機械学習モデルを用いて評価された。
全てのモデルは、フォーマット間で高い検出精度を示す。
QRコードベースのフィッシング(クエリ)には、畳み込みニューラルネットワーク(CNN)を用いた画像ベース検出と、最近の軽量言語モデルを用いたデコードURLの語彙解析の2つの補完手法が実装された。
関連論文リスト
- Characterizing Phishing Pages by JavaScript Capabilities [77.64740286751834]
本論文は,フィッシングページのグループを自動的に識別し,研究者やアナリストを支援することを目的としている。
キット検出の精度は,4,562個のフィッシングURLに展開した548個のキット群に対して97%であった。
UIの対話性と基本的なフィンガープリントは、クラスタの90%と80%に存在する普遍的なテクニックであることが分かりました。
論文 参考訳(メタデータ) (2025-09-16T15:39:23Z) - MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection [1.554831836850549]
本稿では,新しいマルチソース・フィッシング・メール・データセットであるMeAJORを提案する。
135894のサンプルが統合されており、フィッシングの戦術と正当なメールが多岐にわたる。
複数のカテゴリから幅広い機能を統合することで、データセットは再利用可能な一貫性のあるリソースを提供します。
論文 参考訳(メタデータ) (2025-07-23T22:57:08Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - PhishAgent: A Robust Multimodal Agent for Phishing Webpage Detection [26.106113544525545]
フィッシング攻撃はオンラインセキュリティにとって大きな脅威であり、ユーザーの脆弱性を利用して機密情報を盗む。
フィッシングに対処する様々な方法が開発されており、それぞれ異なるレベルの精度で行われているが、それらもまた顕著な制限に直面している。
本研究では,多モーダル大規模言語モデル(MLLM)とオンラインおよびオフラインの知識ベースを統合した多モーダルエージェントであるPhishAgentを紹介する。
この組み合わせは、ブランドの認知とリコールを強化する幅広いブランドカバレッジにつながる。
論文 参考訳(メタデータ) (2024-08-20T11:14:21Z) - From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks [0.8050163120218178]
フィッシング攻撃は、ユーザーを騙して機密情報を盗み、重大なサイバーセキュリティの脅威を引き起こす。
我々は、さまざまなフィッシング機能を正当なWebページに埋め込むことで、敵対的なフィッシングWebページを生成するツールであるPhishOracleを開発した。
本研究は, フィッシング検出モデルによる敵攻撃に対する脆弱性を強調し, より堅牢な検出アプローチの必要性を強調した。
論文 参考訳(メタデータ) (2024-07-29T18:21:34Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - Detecting malicious PDF using CNN [46.86114958340962]
悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。
本稿では,ファイルのバイトレベルにおける畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた新しいアルゴリズムを提案する。
オンラインでダウンロード可能な90000ファイルのデータセットを用いて,本手法はPDFマルウェアの高検出率(94%)を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-24T18:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。