論文の概要: URL2Graph++: Unified Semantic-Structural-Character Learning for Malicious URL Detection
- arxiv url: http://arxiv.org/abs/2509.10287v1
- Date: Fri, 12 Sep 2025 14:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.123435
- Title: URL2Graph++: Unified Semantic-Structural-Character Learning for Malicious URL Detection
- Title(参考訳): URL2Graph++: 悪意のあるURL検出のための統一意味構造文字学習
- Authors: Ye Tian, Yifan Jia, Yanbin Wang, Jianguo Sun, Zhiquan Liu, Xiaowen Ling,
- Abstract要約: 悪意のあるURL検出は、サイバーセキュリティにおいて依然として大きな課題である。
マルチグラニュラリティグラフ学習とセマンティック埋め込みを組み合わせた新しい悪意のあるURL検出手法を提案する。
その結果,提案手法は大規模言語モデルを含むSOTA性能を上回ることがわかった。
- 参考スコア(独自算出の注目度): 11.415725075802344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious URL detection remains a major challenge in cybersecurity, primarily due to two factors: (1) the exponential growth of the Internet has led to an immense diversity of URLs, making generalized detection increasingly difficult; and (2) attackers are increasingly employing sophisticated obfuscation techniques to evade detection. We advocate that addressing these challenges fundamentally requires: (1) obtaining semantic understanding to improve generalization across vast and diverse URL sets, and (2) accurately modeling contextual relationships within the structural composition of URLs. In this paper, we propose a novel malicious URL detection method combining multi-granularity graph learning with semantic embedding to jointly capture semantic, character-level, and structural features for robust URL analysis. To model internal dependencies within URLs, we first construct dual-granularity URL graphs at both subword and character levels, where nodes represent URL tokens/characters and edges encode co-occurrence relationships. To obtain fine-grained embeddings, we initialize node representations using a character-level convolutional network. The two graphs are then processed through jointly trained Graph Convolutional Networks to learn consistent graph-level representations, enabling the model to capture complementary structural features that reflect co-occurrence patterns and character-level dependencies. Furthermore, we employ BERT to derive semantic representations of URLs for semantically aware understanding. Finally, we introduce a gated dynamic fusion network to combine the semantically enriched BERT representations with the jointly optimized graph vectors, further enhancing detection performance. We extensively evaluate our method across multiple challenging dimensions. Results show our method exceeds SOTA performance, including against large language models.
- Abstract(参考訳): 悪意のあるURL検出は、主にサイバーセキュリティにおいて大きな課題であり、(1)インターネットの指数的な成長によってURLの多様性が大きくなり、一般化された検出がますます困難になり、(2)攻撃者は検出を避けるために高度な難読化技術を用いている。
これらの課題に対処するには,(1)多種多様なURL集合間の一般化を改善するために意味理解を得ること,(2)URLの構造構成内のコンテキスト関係を正確にモデル化することが必要である,と我々は主張する。
本稿では,多粒度グラフ学習とセマンティック埋め込みを組み合わせた新しい悪意のあるURL検出手法を提案する。
URL内の内部依存性をモデル化するために、私たちはまず、URLトークン/文字をノードが表現し、エッジが共起関係を符号化する、サブワードとキャラクタレベルの両方で二重粒度URLグラフを構築します。
粒度の細かい埋め込みを得るために,文字レベルの畳み込みネットワークを用いてノード表現を初期化する。
2つのグラフは共同でトレーニングされたグラフ畳み込みネットワークを通じて処理され、一貫性のあるグラフレベルの表現を学習し、モデルが共起パターンとキャラクタレベルの依存関係を反映した補完的な構造的特徴をキャプチャすることを可能にする。
さらに、BERTを用いて、意味を意識した理解のためのURLの意味表現を導出する。
最後に,意味に富んだBERT表現と共同最適化されたグラフベクトルを組み合わせ,さらに検出性能を向上させるために,ゲート型動的融合ネットワークを導入する。
複数の課題にまたがる手法を広範囲に評価した。
その結果,提案手法は大規模言語モデルを含むSOTA性能を上回ることがわかった。
関連論文リスト
- WebGuard++:Interpretable Malicious URL Detection via Bidirectional Fusion of HTML Subgraphs and Multi-Scale Convolutional BERT [3.6220178465092503]
URL+ HTML機能融合は、攻撃者のアーティファクトがDOM構造に持続するため、堅牢な悪意のあるURL検出を約束する。
4つの新しいコンポーネントを持つ検出フレームワークであるWebGuard++を紹介します。
実験によると、WebGuard++は最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-24T06:36:51Z) - RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection [8.050935113945428]
本稿では,transFormer(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。
RAGFormerはセマンティック機能とトポロジ機能の両方をターゲットノードに埋め込む。
単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。
論文 参考訳(メタデータ) (2024-02-27T12:53:15Z) - Continuous Multi-Task Pre-training for Malicious URL Detection and Webpage Classification [6.8847203112253235]
悪意のあるURLの検出とWebページの分類は、サイバーセキュリティと情報管理において重要なタスクである。
本稿では、Transformerを利用した事前学習したURLエンコーダであるurlBERTを提案し、数十億の未ラベルURLから基礎知識を符号化する。
我々は、フィッシングURL検出、広告URL検出、ウェブページ分類という3つの下流タスクでこれを評価した。
論文 参考訳(メタデータ) (2024-02-18T07:51:20Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。