論文の概要: DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification
- arxiv url: http://arxiv.org/abs/2409.09143v1
- Date: Fri, 13 Sep 2024 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:09:06.783630
- Title: DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification
- Title(参考訳): DomURLs_BERT:悪性ドメインとURLの検出と分類のためのトレーニング済みBERTベースモデル
- Authors: Abdelkader El Mahdaouy, Salima Lamsiyah, Meryem Janati Idrissi, Hamza Alami, Zakaria Yartaoui, Ismail Berrada,
- Abstract要約: 本稿では,疑わしい/悪意のあるドメインやURLを検知・分類するBERTベースのエンコーダであるDomURLs_BERTを紹介する。
提案したエンコーダは、最先端のキャラクタベースのディープラーニングモデルと、サイバーセキュリティにフォーカスしたBERTモデルを、複数のタスクやデータセットにわたって上回る。
- 参考スコア(独自算出の注目度): 4.585051136007553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting and classifying suspicious or malicious domain names and URLs is fundamental task in cybersecurity. To leverage such indicators of compromise, cybersecurity vendors and practitioners often maintain and update blacklists of known malicious domains and URLs. However, blacklists frequently fail to identify emerging and obfuscated threats. Over the past few decades, there has been significant interest in developing machine learning models that automatically detect malicious domains and URLs, addressing the limitations of blacklists maintenance and updates. In this paper, we introduce DomURLs_BERT, a pre-trained BERT-based encoder adapted for detecting and classifying suspicious/malicious domains and URLs. DomURLs_BERT is pre-trained using the Masked Language Modeling (MLM) objective on a large multilingual corpus of URLs, domain names, and Domain Generation Algorithms (DGA) dataset. In order to assess the performance of DomURLs_BERT, we have conducted experiments on several binary and multi-class classification tasks involving domain names and URLs, covering phishing, malware, DGA, and DNS tunneling. The evaluations results show that the proposed encoder outperforms state-of-the-art character-based deep learning models and cybersecurity-focused BERT models across multiple tasks and datasets. The pre-training dataset, the pre-trained DomURLs_BERT encoder, and the experiments source code are publicly available.
- Abstract(参考訳): サイバーセキュリティの基本的な課題は、疑わしいドメイン名や悪意のあるURLの検出と分類である。
このような妥協の指標を活用するために、サイバーセキュリティベンダや実践者は、既知の悪意のあるドメインやURLのブラックリストを保守し、更新することが多い。
しかし、ブラックリストは新しくて難解な脅威を特定するのに失敗することが多い。
過去数十年にわたり、悪意のあるドメインやURLを自動的に検出し、ブラックリストのメンテナンスと更新の制限に対処する機械学習モデルの開発に、大きな関心が寄せられている。
本稿では,疑わしい/悪質なドメインやURLを検知・分類するために,事前学習したBERTベースのエンコーダであるDomURLs_BERTを紹介する。
DomURLs_BERTは、URL、ドメイン名、ドメイン生成アルゴリズム(DGA)データセットの多言語コーパスに基づいて、Masked Language Modeling(MLM)の目的を使って事前トレーニングされている。
DomURLs_BERTの性能を評価するために、フィッシング、マルウェア、DGA、DNSトンネリングなど、ドメイン名とURLを含む複数のバイナリクラスおよびマルチクラス分類タスクの実験を行った。
評価の結果,提案するエンコーダは,複数のタスクやデータセットにまたがって,最先端の文字ベースのディープラーニングモデルやサイバーセキュリティを重視したBERTモデルよりも優れていた。
事前トレーニングデータセット、事前トレーニングされたDomURLs_BERTエンコーダ、実験ソースコードが公開されている。
関連論文リスト
- ID-centric Pre-training for Recommendation [51.72177873832969]
IDの埋め込みは、新しいドメインに移すことが難しい。
ID埋め込みにおける行動情報は、まだPLMベースのレコメンデーションモデルで支配的であることが証明されている。
本稿では,事前学習ドメインで学習した情報型ID埋め込みを新しいドメインの項目表現に直接転送する,新しいID中心の事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-06T15:34:31Z) - The Performance of Sequential Deep Learning Models in Detecting Phishing Websites Using Contextual Features of URLs [0.0]
本研究では,マルチヘッド・アテンション,テンポラル・コンボリューショナル・ネットワーク(TCN),BI-LSTM,LSTMといった深層学習モデルを用いたフィッシングサイトの検出に焦点を当てた。
以上の結果から,マルチヘッド注意モデルとBI-LSTMモデルは,TCNやLSTMといった他の深層学習アルゴリズムよりも精度,リコール,F1スコアが優れていることが示された。
論文 参考訳(メタデータ) (2024-04-15T13:58:22Z) - URLBERT:A Contrastive and Adversarial Pre-trained Model for URL
Classification [10.562100395816595]
URLはWebコンテンツの理解と分類において重要な役割を果たす。
本稿では,URL分類や検出タスクに適用された最初の事前学習型表現学習モデルであるURLBERTを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:51:20Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - ProxyMix: Proxy-based Mixup Training with Label Refinery for Source-Free
Domain Adaptation [73.14508297140652]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
Proxy-based Mixup training with label refinery (ProxyMix)を提案する。
3つの2D画像と1つの3Dポイントクラウドオブジェクト認識ベンチマークの実験は、ProxyMixがソースフリーなUDAタスクに最先端のパフォーマンスをもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-29T03:45:00Z) - An Adversarial Attack Analysis on Malicious Advertisement URL Detection
Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。
既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。
本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文 参考訳(メタデータ) (2022-04-27T20:06:22Z) - Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation [78.28390172958643]
マルチターゲットドメイン適応(MTDA)における複数のドメインシフトを軽減するのに役立つ2つの重要な側面を同定する。
本論文では,二重分類器ヘッドを用いたCGCT(Curriculum Graph Co-Teaching)を提案する。そのうちの1つがグラフ畳み込みネットワーク(GCN)である。
ドメインラベルが利用可能になると、まずより簡単なターゲットドメインに適応し、続いて難しいドメインに適応する逐次適応戦略であるDomain-Aware Curriculum Learning (DCL)を提案する。
論文 参考訳(メタデータ) (2021-04-01T23:41:41Z) - Improving DGA-Based Malicious Domain Classifiers for Malware Defense
with Adversarial Machine Learning [0.9023847175654603]
ドメイン生成アルゴリズム(DGA)は、サイバー攻撃中にコマンドアンドコントロール(C&C)サーバー通信を確立するために、敵によって使用されます。
既知のc&cドメインのブラックリストは、しばしば防御機構の1つとして使用される。
敵対的機械学習を用いたマルウェア関連ドメインファミリーの生成手法を提案する。
論文 参考訳(メタデータ) (2021-01-02T22:04:22Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z) - Inline Detection of DGA Domains Using Side Information [5.253305460558346]
ドメイン生成アルゴリズム(DGA)は擬似ランダムドメイン名を生成する一般的な方法である。
近年,機械学習に基づくシステムはDGAの検出に広く利用されている。
我々は、ドメイン名自体よりも敵が操作しにくいサイド情報を用いて、DGA検出のための最先端のディープラーニング・ランダム・フォレスト(RF)分類器を訓練し、評価する。
論文 参考訳(メタデータ) (2020-03-12T11:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。