論文の概要: Bridging the Gap in Phishing Detection: A Comprehensive Phishing Dataset Collector
- arxiv url: http://arxiv.org/abs/2509.09592v1
- Date: Thu, 11 Sep 2025 16:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.46782
- Title: Bridging the Gap in Phishing Detection: A Comprehensive Phishing Dataset Collector
- Title(参考訳): フィッシング検出におけるギャップのブリッジ:包括的フィッシングデータセット収集装置
- Authors: Aditya Kulkarni, Shahil Manishbhai Patel, Shivam Pradip Tirmare, Vivek Balachandran, Tamal Das,
- Abstract要約: 本稿では,CSSやJavaScript,ファビコン,Webページイメージ,スクリーンショットなど,URLに関連するさまざまなリソースを収集するリソース収集ツールを紹介する。
我々は,4,056個の正当性および5,666個のフィッシングURLと関連するリソースからなるツールを用いて生成されたサンプルデータセットを共有する。
- 参考スコア(独自算出の注目度): 0.030786914102688596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To combat phishing attacks -- aimed at luring web users to divulge their sensitive information -- various phishing detection approaches have been proposed. As attackers focus on devising new tactics to bypass existing detection solutions, researchers have adapted by integrating machine learning and deep learning into phishing detection. Phishing dataset collection is vital to developing effective phishing detection approaches, which highly depend on the diversity of the gathered datasets. The lack of diversity in the dataset results in a biased model. Since phishing websites are often short-lived, collecting them is also a challenge. Consequently, very few phishing webpage dataset repositories exist to date. No single repository comprehensively consolidates all phishing elements corresponding to a phishing webpage, namely, URL, webpage source code, screenshot, and related webpage resources. This paper introduces a resource collection tool designed to gather various resources associated with a URL, such as CSS, Javascript, favicons, webpage images, and screenshots. Our tool leverages PhishTank as the primary source for obtaining active phishing URLs. Our tool fetches several additional webpage resources compared to PyWebCopy Python library, which provides webpage content for a given URL. Additionally, we share a sample dataset generated using our tool comprising 4,056 legitimate and 5,666 phishing URLs along with their associated resources. We also remark on the top correlated phishing features with their associated class label found in our dataset. Our tool offers a comprehensive resource set that can aid researchers in developing effective phishing detection approaches.
- Abstract(参考訳): フィッシング攻撃に対抗するため、Webユーザーを誘惑して機密情報を漏らそうとする様々なフィッシング検出手法が提案されている。
攻撃者は既存の検出ソリューションをバイパスする新たな戦術の開発に注力しているため、研究者は機械学習とディープラーニングをフィッシング検出に統合することで適応した。
フィッシングデータセットの収集は、収集されたデータセットの多様性に大きく依存する効果的なフィッシング検出アプローチを開発する上で不可欠である。
データセットの多様性の欠如は、バイアス付きモデルをもたらす。
フィッシングサイトは短命であることが多いため、収集も困難である。
その結果、現在までフィッシングWebページデータセットリポジトリはごくわずかである。
単一のリポジトリは、フィッシングWebページ、すなわちURL、Webページソースコード、スクリーンショット、関連するWebページリソースに対応するすべてのフィッシング要素を包括的に統合していない。
本稿では,CSSやJavaScript,ファビコン,Webページイメージ,スクリーンショットなど,URLに関連するさまざまなリソースを収集するリソース収集ツールを紹介する。
我々のツールはPhishTankをアクティブなフィッシングURLを取得するための主要なソースとして利用しています。
PyWebCopy Pythonライブラリは、特定のURLに対してWebページコンテンツを提供する。
さらに,4,056個の正当性および5,666個のフィッシングURLと関連するリソースからなるツールを用いて生成されたサンプルデータセットを共有する。
また、データセットにある関連するクラスラベルと、最も関連性の高いフィッシング機能についても言及する。
我々のツールは、研究者が効果的なフィッシング検出アプローチを開発するのに役立つ包括的なリソースセットを提供する。
関連論文リスト
- Phish-Blitz: Advancing Phishing Detection with Comprehensive Webpage Resource Collection and Visual Integrity Preservation [0.03262230127283452]
Phish-Blitzは、フィッシングや正当なWebページを、スクリーンショットなどの関連するリソースとともにダウンロードするツールである。
既存のツールとは異なり、Phish-BlitzはライブのWebページのスクリーンショットをキャプチャし、リソースファイルパスを更新して、Webページの本来の視覚的整合性を維持する。
8,809件の正当性と5000件のフィッシングWebページを含むデータセットを提供する。
論文 参考訳(メタデータ) (2025-09-10T08:13:49Z) - Can Features for Phishing URL Detection Be Trusted Across Diverse Datasets? A Case Study with Explainable AI [0.0]
フィッシング(Phishing)は、ユーザーを操り、偽装戦術によって機密性の高い個人情報を暴露するサイバー脅威として広く利用されている。
フィッシングURL(またはウェブサイト)を積極的に検出することは、広く受け入れられた防衛アプローチとして確立されている。
公開されている2つのフィッシングURLデータセットを分析し、それぞれのデータセットにはURL文字列とWebサイトコンテンツに関連する独自の、重複した機能セットがあります。
論文 参考訳(メタデータ) (2024-11-14T21:07:52Z) - From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks [0.8050163120218178]
フィッシング攻撃は、ユーザーを騙して機密情報を盗み、重大なサイバーセキュリティの脅威を引き起こす。
我々は、さまざまなフィッシング機能を正当なWebページに埋め込むことで、敵対的なフィッシングWebページを生成するツールであるPhishOracleを開発した。
本研究は, フィッシング検出モデルによる敵攻撃に対する脆弱性を強調し, より堅牢な検出アプローチの必要性を強調した。
論文 参考訳(メタデータ) (2024-07-29T18:21:34Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection [36.014171641453615]
各ブランドに関する情報が豊富な20万のブランドを含む,自動知識収集パイプラインを提案する。
KnowPhishは、既存の参照ベースのフィッシング検出器の性能を高めるために使用できる。
結果として得られたマルチモーダルフィッシング検出手法であるKnowPhish Detectorは,ロゴの有無にかかわらずフィッシングWebページを検出することができる。
論文 参考訳(メタデータ) (2024-03-04T17:38:32Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Phishing and Spear Phishing: examples in Cyber Espionage and techniques
to protect against them [91.3755431537592]
フィッシング攻撃は、2012年以降、サイバー攻撃の91%以上を突破し、オンライン詐欺で最も使われているテクニックとなっている。
本研究は, フィッシングとスピア・フィッシングによる攻撃が, 結果を大きくする5つのステップを通じて, フィッシングとスピア・フィッシングによる攻撃の実施方法についてレビューした。
論文 参考訳(メタデータ) (2020-05-31T18:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。