論文の概要: URLBERT:A Contrastive and Adversarial Pre-trained Model for URL
Classification
- arxiv url: http://arxiv.org/abs/2402.11495v1
- Date: Sun, 18 Feb 2024 07:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:44:14.567669
- Title: URLBERT:A Contrastive and Adversarial Pre-trained Model for URL
Classification
- Title(参考訳): URLBERT:URL分類のためのコントラストおよび逆順事前学習モデル
- Authors: Yujie Li, Yanbin Wang, Haitao Xu, Zhenhao Guo, Zheng Cao, Lun Zhang
- Abstract要約: URLはWebコンテンツの理解と分類において重要な役割を果たす。
本稿では,URL分類や検出タスクに適用された最初の事前学習型表現学習モデルであるURLBERTを紹介する。
- 参考スコア(独自算出の注目度): 10.562100395816595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: URLs play a crucial role in understanding and categorizing web content,
particularly in tasks related to security control and online recommendations.
While pre-trained models are currently dominating various fields, the domain of
URL analysis still lacks specialized pre-trained models. To address this gap,
this paper introduces URLBERT, the first pre-trained representation learning
model applied to a variety of URL classification or detection tasks. We first
train a URL tokenizer on a corpus of billions of URLs to address URL data
tokenization. Additionally, we propose two novel pre-training tasks: (1)
self-supervised contrastive learning tasks, which strengthen the model's
understanding of URL structure and the capture of category differences by
distinguishing different variants of the same URL; (2) virtual adversarial
training, aimed at improving the model's robustness in extracting semantic
features from URLs. Finally, our proposed methods are evaluated on tasks
including phishing URL detection, web page classification, and ad filtering,
achieving state-of-the-art performance. Importantly, we also explore multi-task
learning with URLBERT, and experimental results demonstrate that multi-task
learning model based on URLBERT exhibit equivalent effectiveness compared to
independently fine-tuned models, showing the simplicity of URLBERT in handling
complex task requirements. The code for our work is available at
https://github.com/Davidup1/URLBERT.
- Abstract(参考訳): URLは、特にセキュリティ管理やオンラインレコメンデーションに関連するタスクにおいて、Webコンテンツの理解と分類において重要な役割を果たす。
現在、事前訓練されたモデルは様々な分野を支配しているが、URL分析の領域には特別な事前訓練されたモデルがない。
このギャップに対処するために、様々なURL分類や検出タスクに適用された最初の事前学習型表現学習モデルであるURLBERTを紹介する。
私たちはまず、URLデータのトークン化に対処するために、数十億のURLのコーパスでURLトークンライザをトレーニングします。
さらに,(1)同一URLの異なる変種を識別することで,モデルのURL構造理解とカテゴリー差の捕捉を強化する自己教師型コントラスト学習タスク,(2)URLから意味的特徴を抽出する際のモデルの堅牢性向上を目的とした仮想対人訓練,の2つの新しい事前学習タスクを提案する。
最後に,提案手法をフィッシングurl検出,webページ分類,広告フィルタリングなどのタスクで評価し,最先端のパフォーマンスを実現する。
また, URLBERTを用いたマルチタスク学習についても検討し, 複雑なタスク要求の処理における URLBERT の単純さを示すために, URLBERT に基づくマルチタスク学習モデルが独立に調整されたモデルと同等の有効性を示した。
私たちの仕事のコードはhttps://github.com/davidup1/urlbert.comで利用可能です。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification [4.585051136007553]
本稿では,疑わしい/悪意のあるドメインやURLを検知・分類するBERTベースのエンコーダであるDomURLs_BERTを紹介する。
提案したエンコーダは、最先端のキャラクタベースのディープラーニングモデルと、サイバーセキュリティにフォーカスしたBERTモデルを、複数のタスクやデータセットにわたって上回る。
論文 参考訳(メタデータ) (2024-09-13T18:59:13Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - URL-BERT: Training Webpage Representations via Social Media Engagements [31.6455614291821]
LMを適応させてURLやWebページを理解するための,新たな事前学習目標を提案する。
提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づいて,URLの浅い表現を学習するためのスケーラブルなグラフ埋め込みである。
当社の継続的な事前学習アプローチは、さまざまなタスクやTwitterの内部および外部ベンチマークにおけるWebページ理解を改善することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-25T02:22:50Z) - Learning from Limited Heterogeneous Training Data: Meta-Learning for Unsupervised Zero-Day Web Attack Detection across Web Domains [23.41494712616903]
我々は、異なるドメイン間でのゼロデイWeb攻撃検出を可能にする新しいメタラーニングベースのフレームワークであるRETSINAを提案する。
我々は4つの実世界のデータセットを、合計293万のWebリクエストで異なるドメインで実験する。
RETSINAは2つのドメインで1日平均126と218のゼロデイ攻撃要求を1ヶ月でキャプチャする。
論文 参考訳(メタデータ) (2023-09-07T11:58:20Z) - A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning [29.511632089649552]
時系列固有のシェープレットに基づく表現を学習し,多変量時系列のための新しいURLフレームワークを提案する。
我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。
統一型シェープレットベースのエンコーダと,マルチグレードコントラストとマルチスケールアライメントを備えた新しい学習目標が,目的達成のために特に設計されている。
論文 参考訳(メタデータ) (2023-05-30T09:31:57Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。