論文の概要: Continuous Multi-Task Pre-training for Malicious URL Detection and Webpage Classification
- arxiv url: http://arxiv.org/abs/2402.11495v2
- Date: Sat, 24 May 2025 08:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:41.314989
- Title: Continuous Multi-Task Pre-training for Malicious URL Detection and Webpage Classification
- Title(参考訳): 悪意のあるURL検出とWebページ分類のための連続マルチタスク事前学習
- Authors: Yujie Li, Yiwei Liu, Peiyue Li, Yifan Jia, Yanbin Wang,
- Abstract要約: 悪意のあるURLの検出とWebページの分類は、サイバーセキュリティと情報管理において重要なタスクである。
本稿では、Transformerを利用した事前学習したURLエンコーダであるurlBERTを提案し、数十億の未ラベルURLから基礎知識を符号化する。
我々は、フィッシングURL検出、広告URL検出、ウェブページ分類という3つの下流タスクでこれを評価した。
- 参考スコア(独自算出の注目度): 6.8847203112253235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious URL detection and webpage classification are critical tasks in cybersecurity and information management. In recent years, extensive research has explored using BERT or similar language models to replace traditional machine learning methods for detecting malicious URLs and classifying webpages. While previous studies show promising results, they often apply existing language models to these tasks without accounting for the inherent differences in domain data (e.g., URLs being loosely structured and semantically sparse compared to text), leaving room for performance improvement. Furthermore, current approaches focus on single tasks and have not been tested in multi-task scenarios. To address these challenges, we propose urlBERT, a pre-trained URL encoder leveraging Transformer to encode foundational knowledge from billions of unlabeled URLs. To achieve it, we propose to use 5 unsupervised pretraining tasks to capture multi-level information of URL lexical, syntax, and semantics, and generate contrastive and adversarial representations. Furthermore, to avoid inter-pre-training competition and interference, we proposed a grouped sequential learning method to ensure effective training across multi-tasks. Finally, we leverage a two-stage fine-tuning approach to improve the training stability and efficiency of the task model. To assess the multitasking potential of urlBERT, we fine-tune the task model in both single-task and multi-task modes. The former creates a classification model for a single task, while the latter builds a classification model capable of handling multiple tasks. We evaluate urlBERT on three downstream tasks: phishing URL detection, advertising URL detection, and webpage classification. The results demonstrate that urlBERT outperforms standard pre-trained models, and its multi-task mode is capable of addressing the real-world demands of multitasking.
- Abstract(参考訳): 悪意のあるURLの検出とWebページの分類は、サイバーセキュリティと情報管理において重要なタスクである。
近年,BERTなどの言語モデルを用いて,悪意のあるURLの検出やWebページの分類を行う従来の機械学習手法を代替する研究が盛んに行われている。
以前の研究では有望な結果を示しているが、ドメインデータ固有の違い(例えば、URLはテキストに比べてゆるく構造化され、意味的に疎い)を考慮せずに、既存の言語モデルをこれらのタスクに適用することが多く、パフォーマンス改善の余地を残している。
さらに、現在のアプローチでは単一のタスクに重点を置いており、マルチタスクシナリオではテストされていない。
これらの課題に対処するために、Transformerを利用して数十億の未ラベルURLから基礎知識を符号化する、事前訓練されたURLエンコーダであるurlBERTを提案する。
そこで本研究では,5つの教師なし事前学習タスクを用いて,URL語彙,構文,セマンティクスのマルチレベル情報をキャプチャし,コントラスト的,対逆的表現を生成することを提案する。
さらに,事前学習の競合や干渉を避けるため,マルチタスク間の効果的なトレーニングを実現するためのグループ型逐次学習手法を提案する。
最後に,2段階の微調整手法を用いて,タスクモデルの訓練安定性と効率を向上させる。
urlBERTのマルチタスクポテンシャルを評価するために,タスクモデルを単一タスクモードとマルチタスクモードの両方で微調整する。
前者は1つのタスクの分類モデルを作成し、後者は複数のタスクを処理することができる分類モデルを構築します。
本稿では,3つの下流タスク – フィッシングURL検出,広告URL検出,Webページ分類 – に対してurlBERTを評価する。
その結果、urlBERTは標準的な事前学習モデルよりも優れており、マルチタスクモードはマルチタスクの現実的な要求に対処できることがわかった。
関連論文リスト
- A New Dataset and Methodology for Malicious URL Classification [2.835223467109843]
悪意のあるURL(Uniform Resource Locator)分類はサイバーセキュリティの重要な側面であり、Webベースの脅威に対する防御を提供する。
この分野でのディープラーニングの約束にもかかわらず、その進歩は、包括的なオープンソースデータセットの不足と、既存のモデルの制限という、2つの大きな課題によって妨げられている。
悪意のあるURL分類のための新しいマルチクラスデータセットを導入し、良性、フィッシング、悪意のあるURLを区別する。
論文 参考訳(メタデータ) (2024-12-31T09:10:38Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification [4.585051136007553]
本稿では,疑わしい/悪意のあるドメインやURLを検知・分類するBERTベースのエンコーダであるDomURLs_BERTを紹介する。
提案したエンコーダは、最先端のキャラクタベースのディープラーニングモデルと、サイバーセキュリティにフォーカスしたBERTモデルを、複数のタスクやデータセットにわたって上回る。
論文 参考訳(メタデータ) (2024-09-13T18:59:13Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - PMANet: Malicious URL detection via post-trained language model guided multi-level feature attention network [16.73322002436809]
PMANetは,事前学習型言語モデル誘導型マルチレベル特徴注意ネットワークである。
PMANetは、マスク付き言語モデリング、ノイズの多い言語モデリング、ドメイン識別という、3つの自己組織化された目標を持つポストトレーニングプロセスを採用している。
小規模データ、クラス不均衡、敵攻撃を含む様々なシナリオの実験は、PMANetが最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-21T06:23:08Z) - URL-BERT: Training Webpage Representations via Social Media Engagements [31.6455614291821]
LMを適応させてURLやWebページを理解するための,新たな事前学習目標を提案する。
提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づいて,URLの浅い表現を学習するためのスケーラブルなグラフ埋め込みである。
当社の継続的な事前学習アプローチは、さまざまなタスクやTwitterの内部および外部ベンチマークにおけるWebページ理解を改善することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-25T02:22:50Z) - Learning from Limited Heterogeneous Training Data: Meta-Learning for Unsupervised Zero-Day Web Attack Detection across Web Domains [23.41494712616903]
我々は、異なるドメイン間でのゼロデイWeb攻撃検出を可能にする新しいメタラーニングベースのフレームワークであるRETSINAを提案する。
我々は4つの実世界のデータセットを、合計293万のWebリクエストで異なるドメインで実験する。
RETSINAは2つのドメインで1日平均126と218のゼロデイ攻撃要求を1ヶ月でキャプチャする。
論文 参考訳(メタデータ) (2023-09-07T11:58:20Z) - A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning [29.511632089649552]
時系列固有のシェープレットに基づく表現を学習し,多変量時系列のための新しいURLフレームワークを提案する。
我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。
統一型シェープレットベースのエンコーダと,マルチグレードコントラストとマルチスケールアライメントを備えた新しい学習目標が,目的達成のために特に設計されている。
論文 参考訳(メタデータ) (2023-05-30T09:31:57Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。