論文の概要: SCORE: Syntactic Code Representations for Static Script Malware Detection
- arxiv url: http://arxiv.org/abs/2411.08182v1
- Date: Tue, 12 Nov 2024 20:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:56.040461
- Title: SCORE: Syntactic Code Representations for Static Script Malware Detection
- Title(参考訳): SCORE:静的スクリプトマルウェア検出のための構文コード表現
- Authors: Ecenaz Erdemir, Kyuhong Park, Michael J. Morais, Vianne R. Gao, Marion Marschalek, Yi Fan,
- Abstract要約: サーバーサイドスクリプトアタックはデータを盗み、資格を侵害し、操作を妨害する。
本稿では,静的スクリプトマルウェア検出のための特徴抽出と深層学習(DL)に基づくアプローチを提案する。
本手法は, 主要なシグネチャベースの抗ウイルスソリューションよりも最大81%高い陽性率(TPR)を達成する。
- 参考スコア(独自算出の注目度): 9.502104012686491
- License:
- Abstract: As businesses increasingly adopt cloud technologies, they also need to be aware of new security challenges, such as server-side script attacks, to ensure the integrity of their systems and data. These scripts can steal data, compromise credentials, and disrupt operations. Unlike executables with standardized formats (e.g., ELF, PE), scripts are plaintext files with diverse syntax, making them harder to detect using traditional methods. As a result, more sophisticated approaches are needed to protect cloud infrastructures from these evolving threats. In this paper, we propose novel feature extraction and deep learning (DL)-based approaches for static script malware detection, targeting server-side threats. We extract features from plain-text code using two techniques: syntactic code highlighting (SCH) and abstract syntax tree (AST) construction. SCH leverages complex regexes to parse syntactic elements of code, such as keywords, variable names, etc. ASTs generate a hierarchical representation of a program's syntactic structure. We then propose a sequential and a graph-based model that exploits these feature representations to detect script malware. We evaluate our approach on more than 400K server-side scripts in Bash, Python and Perl. We use a balanced dataset of 90K scripts for training, validation, and testing, with the remaining from 400K reserved for further analysis. Experiments show that our method achieves a true positive rate (TPR) up to 81% higher than leading signature-based antivirus solutions, while maintaining a low false positive rate (FPR) of 0.17%. Moreover, our approach outperforms various neural network-based detectors, demonstrating its effectiveness in learning code maliciousness for accurate detection of script malware.
- Abstract(参考訳): 企業がますますクラウド技術を採用するにつれて、システムやデータの整合性を確保するためには、サーバーサイドのスクリプト攻撃のような新しいセキュリティ上の課題も認識する必要がある。
これらのスクリプトはデータを盗み、資格を侵害し、操作を妨害することができる。
標準化されたフォーマット(例えば、ELF、PE)を持つ実行可能ファイルとは異なり、スクリプトは平文ファイルであり、多様な構文を持つため、従来の方法では検出が困難である。
その結果、これらの進化する脅威からクラウドインフラストラクチャを保護するために、より高度なアプローチが必要である。
本稿では,サーバ側の脅威をターゲットとした静的スクリプトマルウェア検出のための,新しい特徴抽出と深層学習(DL)に基づくアプローチを提案する。
構文コードハイライト(SCH)と抽象構文木(AST)という2つの手法を用いて,平文コードから特徴を抽出する。
SCHは複雑なRegexを利用して、キーワードや変数名など、コードの構文要素を解析する。
ASTはプログラムの構文構造の階層的な表現を生成する。
次に、これらの特徴表現を利用してスクリプトマルウェアを検出するシーケンシャルかつグラフベースのモデルを提案する。
我々は,Bash,Python,Perlの400K以上のサーバサイドスクリプトに対するアプローチを評価した。
トレーニング、検証、テストには90Kスクリプトのバランスのとれたデータセットを使用します。
実験の結果,本手法は,FPRが0.17%の低偽陽性率を維持しつつ,主要なシグネチャベースの抗ウイルス溶液よりも最大81%高い陽性率(TPR)を達成することが示された。
さらに,本手法は,スクリプトマルウェアの正確な検出において,コード悪意を学習する上での有効性を示した。
関連論文リスト
- Secret Breach Prevention in Software Issue Reports [2.8747015994080285]
本稿では,ソフトウェア問題報告における秘密漏洩検出のための新しい手法を提案する。
ログファイル、URL、コミットID、スタックトレース、ダミーパスワードなど、ノイズによって引き起こされる課題を強調します。
本稿では,最先端技術の強みと言語モデルの文脈的理解を組み合わせたアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-31T06:14:17Z) - Towards Novel Malicious Packet Recognition: A Few-Shot Learning Approach [0.0]
Deep Packet Inspection (DPI)は、ネットワークセキュリティを強化する重要な技術として登場した。
本研究では,大規模言語モデル(LLM)と少数ショット学習を活用する新しいアプローチを提案する。
提案手法は,マルウェアの種類によって平均精度86.35%,F1スコア86.40%の有望な結果を示す。
論文 参考訳(メタデータ) (2024-09-17T15:02:32Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase
for Python [8.810543294798485]
VUDENCはディープラーニングベースの脆弱性検出ツールである。
大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。
VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
論文 参考訳(メタデータ) (2022-01-20T20:29:22Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。