論文の概要: PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2507.10854v1
- Date: Mon, 14 Jul 2025 23:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.914015
- Title: PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark
- Title(参考訳): PhreshPhish: 現実世界、高品質、大規模フィッシングWebサイトデータセットとベンチマーク
- Authors: Thomas Dalton, Hemanth Gowda, Girish Rao, Sachin Pargi, Alireza Hadj Khodabakhshi, Joseph Rombs, Stephan Jou, Manish Marwah,
- Abstract要約: フィッシングサイトの大規模かつ高品質なデータセットであるPhreshPhishを紹介した。
既存の公開データセットと比較すると、PhreshPhishはかなり大きく、非常に高い品質を提供する。
本稿では,現実的なモデル評価に特化して設計されたベンチマークデータセットの包括的スイートを提案する。
- 参考スコア(独自算出の注目度): 1.5056924758531152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing remains a pervasive and growing threat, inflicting heavy economic and reputational damage. While machine learning has been effective in real-time detection of phishing attacks, progress is hindered by lack of large, high-quality datasets and benchmarks. In addition to poor-quality due to challenges in data collection, existing datasets suffer from leakage and unrealistic base rates, leading to overly optimistic performance results. In this paper, we introduce PhreshPhish, a large-scale, high-quality dataset of phishing websites that addresses these limitations. Compared to existing public datasets, PhreshPhish is substantially larger and provides significantly higher quality, as measured by the estimated rate of invalid or mislabeled data points. Additionally, we propose a comprehensive suite of benchmark datasets specifically designed for realistic model evaluation by minimizing leakage, increasing task difficulty, enhancing dataset diversity, and adjustment of base rates more likely to be seen in the real world. We train and evaluate multiple solution approaches to provide baseline performance on the benchmark sets. We believe the availability of this dataset and benchmarks will enable realistic, standardized model comparison and foster further advances in phishing detection. The datasets and benchmarks are available on Hugging Face (https://huggingface.co/datasets/phreshphish/phreshphish).
- Abstract(参考訳): フィッシングは広範に拡大する脅威であり、経済と評判に深刻なダメージを与えている。
機械学習はフィッシング攻撃のリアルタイム検出に有効だが、大規模で高品質なデータセットとベンチマークの欠如によって進行が妨げられている。
データ収集の課題による品質の低下に加えて、既存のデータセットはリークと非現実的なベースレートに悩まされ、過度に楽観的なパフォーマンス結果をもたらす。
本稿では,PhreshPhishについて紹介する。PhreshPhishはフィッシングサイトの大規模かつ高品質なデータセットで,これらの制限に対処する。
既存の公開データセットと比較すると、PhreshPhishはかなり大きく、不正またはラベルのつかないデータポイントの推定率によって測定されるように、かなり高い品質を提供する。
さらに,リークの最小化,タスクの難易度の向上,データセットの多様性の向上,実世界で見られる可能性のあるベースレートの調整などにより,現実的なモデル評価に特化して設計されたベンチマークデータセットの包括的なスイートを提案する。
ベンチマークセットのベースライン性能を提供するために,複数のソリューションアプローチを訓練し,評価する。
このデータセットとベンチマークが利用できることで、現実的で標準化されたモデルの比較が可能になり、フィッシング検出のさらなる進歩が促進できると考えています。
データセットとベンチマークはHugging Face(https://huggingface.co/datasets/phreshphish/phreshphish)で公開されている。
関連論文リスト
- DiffProb: Data Pruning for Face Recognition [8.394561876328808]
本稿では,顔認識における最初のデータ解析手法であるDiffProbについて述べる。
DiffProbは、いくつかの設定でデータセットの最大50%をプルーするが、検証精度は向上する。
本手法はトレーニングコストとデータ量を大幅に削減し,効率的な顔認識訓練を実現する。
論文 参考訳(メタデータ) (2025-05-21T08:49:07Z) - Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights [0.0]
この研究は、テストデータに近接してトレーニングサンプルを優先順位付けする半教師付きフレームワークを提案する。
12のベンチマークデータセットの実験では、精度、精度、リコールなど、主要なメトリクス間で大幅な改善が示されている。
このフレームワークは、半教師付き学習のための堅牢で実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-20T13:29:04Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Estimating Uncertainty in Landslide Segmentation Models [7.537865319452023]
地すべりは、繰り返し発生し、広範囲にわたる危険である。準備と緩和の努力は、世界規模でリスクの高い地域をカバーする高品質で大規模なデータセットによって助けられる。
近年,衛星画像からの地すべりセグメンテーションのためのディープラーニングモデルに焦点が当てられている。
高精度でロバストな不確実性推定は、自動生成した地すべりデータベースの低コストな監視を可能にし、エラーを解決し、厳しい負の例を特定し、ラベル付きトレーニングデータのサイズを増やすことができる。
論文 参考訳(メタデータ) (2023-11-18T18:18:33Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。