論文の概要: From Past to Present: A Survey of Malicious URL Detection Techniques, Datasets and Code Repositories
- arxiv url: http://arxiv.org/abs/2504.16449v1
- Date: Wed, 23 Apr 2025 06:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.021146
- Title: From Past to Present: A Survey of Malicious URL Detection Techniques, Datasets and Code Repositories
- Title(参考訳): 過去から現在まで:悪質なURL検出技術、データセット、コードリポジトリの調査
- Authors: Ye Tian, Yanqiu Yu, Jianguo Sun, Yanbin Wang,
- Abstract要約: 悪意のあるURLは、ユーザーを騙してプライベートデータを拡散させたり、ホストシステムに侵入するために有害なペイロードを配布することで、サイバーセキュリティエコシステムを絶えず脅かしている。
本稿では,従来のブラックリストから高度なディープラーニングアプローチまで,手法を体系的に分析する。
従来の調査とは違って,既存の研究を主要なデータモダリティに応じて分類する,新しいモダリティに基づく分類法を提案する。
- 参考スコア(独自算出の注目度): 3.323388021979584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious URLs persistently threaten the cybersecurity ecosystem, by either deceiving users into divulging private data or distributing harmful payloads to infiltrate host systems. Gaining timely insights into the current state of this ongoing battle holds significant importance. However, existing reviews exhibit 4 critical gaps: 1) Their reliance on algorithm-centric taxonomies obscures understanding of how detection approaches exploit specific modal information channels; 2) They fail to incorporate pivotal LLM/Transformer-based defenses; 3) No open-source implementations are collected to facilitate benchmarking; 4) Insufficient dataset coverage.This paper presents a comprehensive review of malicious URL detection technologies, systematically analyzing methods from traditional blacklisting to advanced deep learning approaches (e.g. Transformer, GNNs, and LLMs). Unlike prior surveys, we propose a novel modality-based taxonomy that categorizes existing works according to their primary data modalities (URL, HTML, Visual, etc.). This hierarchical classification enables both rigorous technical analysis and clear understanding of multimodal information utilization. Furthermore, to establish a profile of accessible datasets and address the lack of standardized benchmarking (where current studies often lack proper baseline comparisons), we curate and analyze: 1) publicly available datasets (2016-2024), and 2) open-source implementations from published works(2013-2025). Then, we outline essential design principles and architectural frameworks for product-level implementations. The review concludes by examining emerging challenges and proposing actionable directions for future research. We maintain a GitHub repository for ongoing curating datasets and open-source implementations: https://github.com/sevenolu7/Malicious-URL-Detection-Open-Source/tree/master.
- Abstract(参考訳): 悪意のあるURLは、ユーザーを騙してプライベートデータを拡散させたり、ホストシステムに侵入するために有害なペイロードを配布することで、サイバーセキュリティエコシステムを絶えず脅かしている。
この戦闘の現状に関するタイムリーな洞察を得ることは重要な意味を持つ。
しかし、既存のレビューでは、4つの重要なギャップが示されています。
1)アルゴリズム中心の分類への依存は、検出アプローチが特定のモーダル情報チャネルをどのように活用するかの理解を曖昧にしている。
2 LLM/Transformer-based Defensesを組み込むことができない。
3) ベンチマークを容易にするためにオープンソース実装は収集されない。
4) 従来のブラックリストから高度な深層学習(例えば Transformer, GNN, LLMs)への手法を体系的に分析し, 悪意のあるURL検出技術の総合的なレビューを行う。
従来の調査とは違って,既存の作業を主要なデータモダリティ(URL,HTML,ビジュアルなど)に応じて分類する,新しいモダリティベースの分類法を提案する。
この階層的な分類は、厳密な技術分析とマルチモーダル情報利用の明確な理解の両方を可能にする。
さらに、アクセス可能なデータセットのプロファイルを確立し、標準化されたベンチマーク(現在の研究では適切なベースライン比較が欠如していることが多い)の欠如に対処するために、私たちは、キュレートし、分析します。
1)公開データセット(2016-2024)及び
2) 公開された著作物(2013-2025)のオープンソース実装。
そして、製品レベルの実装に不可欠な設計原則とアーキテクチャフレームワークを概説する。
このレビューは、新たな課題を検証し、将来の研究に向けて実行可能な方向性を提案することで締めくくられる。
私たちは、進行中のデータセットとオープンソース実装のためのGitHubリポジトリを維持しています。
関連論文リスト
- How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Hidden Data Privacy Breaches in Federated Learning [24.47236055167954]
フェデレーテッド・ラーニング(FL)は、広範囲に分散したデータセットで機械学習を実行するためのパラダイムとして登場した。
近年の研究によると、攻撃者はモデル操作や勾配解析によって個人データを盗むことができる。
本稿では,悪意あるコードインジェクションを利用した新しいデータ再構成攻撃を提案する。
論文 参考訳(メタデータ) (2024-11-27T12:04:37Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Robust Recommender System: A Survey and Future Directions [58.87305602959857]
まず,悪質な攻撃や自然騒音に耐える現在の手法を整理するための分類法を提案する。
次に、不正検出、敵の訓練、悪意のある攻撃から守るための確実な堅牢な訓練など、各カテゴリにおける最先端の手法を検討する。
さまざまなレコメンデーションシナリオの堅牢性や,正確性や解釈可能性,プライバシ,公正性といった他の特性との相互作用について論じる。
論文 参考訳(メタデータ) (2023-09-05T08:58:46Z) - Unsupervised Abnormal Traffic Detection through Topological Flow
Analysis [1.933681537640272]
悪意のある流れの トポロジカル接続コンポーネントは 利用されていない
本稿では,教師なし異常検出アルゴリズムにおける接続グラフ機能の利用を容易にするための簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-05-14T18:52:49Z) - Machine Learning for Encrypted Malicious Traffic Detection: Approaches,
Datasets and Comparative Study [6.267890584151111]
新型コロナウイルス(COVID-19)後の環境では、悪意のあるトラフィック暗号化が急速に増加している。
我々は、機械学習に基づく暗号化された悪意のあるトラフィック検出手法の普遍的な枠組みを定式化する。
暗号化された悪意のあるトラフィック検出アルゴリズムを10個実装し比較する。
論文 参考訳(メタデータ) (2022-03-17T14:00:55Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - UMAD: Universal Model Adaptation under Domain and Category Shift [138.12678159620248]
Universal Model Adaptation (UMAD)フレームワークは、ソースデータにアクセスせずに両方のUDAシナリオを処理する。
未知のサンプルと未知のサンプルを識別するのに役立つ情報整合性スコアを開発した。
オープンセットおよびオープンパーティルセット UDA シナリオの実験では、UMAD が最先端のデータ依存手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2021-12-16T01:22:59Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。