論文の概要: Beyond Detection: A Comprehensive Benchmark and Study on Representation Learning for Fine-Grained Webshell Family Classification
- arxiv url: http://arxiv.org/abs/2512.05288v1
- Date: Thu, 04 Dec 2025 22:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.829545
- Title: Beyond Detection: A Comprehensive Benchmark and Study on Representation Learning for Fine-Grained Webshell Family Classification
- Title(参考訳): Beyond Detection: 細粒度Webshellファミリー分類のための総合ベンチマークと表現学習に関する研究
- Authors: Feijiang Han,
- Abstract要約: 悪意のあるWebShellsは、重要なデジタルインフラストラクチャを妥協することによって、大きく進化する脅威となる。
有望な方向性の1つは、WebShellファミリー分類の自動化である。
WebShellファミリー分類を自動化する最初の体系的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious WebShells pose a significant and evolving threat by compromising critical digital infrastructures and endangering public services in sectors such as healthcare and finance. While the research community has made significant progress in WebShell detection (i.e., distinguishing malicious samples from benign ones), we argue that it is time to transition from passive detection to in-depth analysis and proactive defense. One promising direction is the automation of WebShell family classification, which involves identifying the specific malware lineage in order to understand an adversary's tactics and enable a precise, rapid response. This crucial task, however, remains a largely unexplored area that currently relies on slow, manual expert analysis. To address this gap, we present the first systematic study to automate WebShell family classification. Our method begins with extracting dynamic function call traces to capture inherent behaviors that are resistant to common encryption and obfuscation. To enhance the scale and diversity of our dataset for a more stable evaluation, we augment these real-world traces with new variants synthesized by Large Language Models. These augmented traces are then abstracted into sequences, graphs, and trees, providing a foundation to benchmark a comprehensive suite of representation methods. Our evaluation spans classic sequence-based embeddings (CBOW, GloVe), transformers (BERT, SimCSE), and a range of structure-aware algorithms, including Graph Kernels, Graph Edit Distance, Graph2Vec, and various Graph Neural Networks. Through extensive experiments on four real-world, family-annotated datasets under both supervised and unsupervised settings, we establish a robust baseline and provide practical insights into the most effective combinations of data abstractions, representation models, and learning paradigms for this challenge.
- Abstract(参考訳): 悪意のあるWebShellsは、重要なデジタルインフラを妥協し、医療や金融などの分野における公共サービスを危険にさらすことによって、重大な、そして進化する脅威をもたらす。
研究コミュニティは、WebShell検出(すなわち、悪意のあるサンプルと良性のあるサンプルを区別する)において大きな進歩を遂げてきたが、受動的検出から深い分析と積極的防御へ移行する時が来たと主張している。
WebShellファミリー分類の自動化は、敵の戦術を理解し、正確な迅速な応答を可能にするために、特定のマルウェアの系統を識別する。
しかし、この重要なタスクは、まだほとんど探索されていない領域であり、現在、遅い手動の専門家分析に依存している。
このギャップに対処するために、WebShellファミリー分類を自動化するための最初の体系的な研究を提案する。
提案手法は,一般的な暗号化や難読化に抵抗する固有の動作を捉えるために,動的関数コールトレースを抽出することから始まる。
より安定した評価のために、データセットのスケールと多様性を高めるために、大規模言語モデルによって合成された新しい変種を用いて、これらの実世界のトレースを拡張する。
これらの拡張トレースはシーケンス、グラフ、ツリーに抽象化され、包括的な表現方法のスイートをベンチマークする基盤を提供する。
我々の評価は、古典的なシーケンスベースの埋め込み(CBOW、GloVe)、変換器(BERT、SimCSE)、およびグラフカーネル、グラフ編集距離、Graph2Vec、および様々なグラフニューラルネットワークを含む様々な構造認識アルゴリズムにまたがる。
教師付きと教師なしの両方の条件下で4つの実世界、ファミリーアノテートされたデータセットに関する広範な実験を通じて、ロバストなベースラインを確立し、この課題に対するデータ抽象化、表現モデル、学習パラダイムの最も効果的な組み合わせに関する実践的な洞察を提供する。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Self-Supervised Learning of Graph Representations for Network Intrusion Detection [6.453778601809096]
GraphIDSは、表現学習と異常検出を統一する自己教師型侵入検出モデルである。
帰納的グラフニューラルネットワークは、各フローを局所的なトポロジカルコンテキストに埋め込んで、典型的なネットワークの振る舞いをキャプチャする。
Transformerベースのエンコーダデコーダは、これらの埋め込みを再構築し、自己注意を通じてグローバルな共起パターンを暗黙的に学習する。
推論中は、異常に高い復元誤差のフローが潜在的侵入としてフラグ付けされる。
論文 参考訳(メタデータ) (2025-09-20T11:02:50Z) - One-Class Intrusion Detection with Dynamic Graphs [46.453758431767724]
機械学習に基づく侵入検知は、セキュリティを改善するための有望なアプローチである。
本稿では,最新の動的グラフモデリングと深部異常検出に基づく新しい侵入検出手法TGN-SVDDを提案する。
本稿では,現実的な侵入検出データに対して,いくつかのベースラインよりも優れていることを示すとともに,後者のより困難なバリエーションを提案する。
論文 参考訳(メタデータ) (2025-08-18T12:36:55Z) - TrustGLM: Evaluating the Robustness of GraphLLMs Against Prompt, Text, and Structure Attacks [3.3238054848751535]
テキスト,グラフ構造,即時操作の3次元にわたる敵攻撃に対するGraphLLMの脆弱性を評価する総合的研究であるTrustGLMを紹介する。
この結果から,GraphLLMsは,ノードのテキスト属性に含まれる意味論的に類似した単語を置き換えるだけで,テキスト攻撃に非常に敏感であることが判明した。
また、標準グラフ構造攻撃手法はモデル性能を著しく低下させるが、プロンプトテンプレートで候補ラベルセットをランダムにシャッフルすると性能が大幅に低下する。
論文 参考訳(メタデータ) (2025-06-13T14:48:01Z) - Stepping out of Flatland: Discovering Behavior Patterns as Topological Structures in Cyber Hypergraphs [0.7835894511242797]
本稿では,ハイパーグラフとトポロジ理論に基づく新しいフレームワークを提案する。
大規模なサイバーネットワークデータセットで具体例を示す。
論文 参考訳(メタデータ) (2023-11-08T00:00:33Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Adversarial Attack on Community Detection by Hiding Individuals [68.76889102470203]
我々はブラックボックス攻撃に焦点をあて、ディープグラフコミュニティ検出モデルの検出からターゲット個人を隠すことを目的としている。
本稿では,制約付きグラフ生成器として動作するモジュールと,サロゲート型コミュニティ検出モデルとして動作するモジュールを交互に更新する反復学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T09:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。