論文の概要: Shifting the Lens: Detecting Malicious npm Packages using Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12196v2
- Date: Fri, 9 Aug 2024 16:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:20:09.524540
- Title: Shifting the Lens: Detecting Malicious npm Packages using Large Language Models
- Title(参考訳): レンズのシフト:大規模言語モデルを用いた悪性npmパッケージの検出
- Authors: Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams,
- Abstract要約: 既存の悪意のあるコード検出技術は、しばしば高い誤分類率に悩まされる。
悪意のあるコードレビューワークフローであるSecurityAIを紹介し、ChatGPTを使って悪意のあるコードを検出する。
ベースライン比較では, 静的解析の精度とF1スコアよりも16%, 9%向上した。
- 参考スコア(独自算出の注目度): 4.479741014073169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing malicious code detection techniques can aid the manual review process by predicting which packages are likely to be malicious. However, these techniques often suffer from high misclassification rates. Therefore, malicious code detection techniques could be enhanced by adopting advanced, more automated approaches to achieve high accuracy and a low misclassification rate. The goal of this study is to assist security analysts in detecting malicious packages through the empirical study of using Large Language Models (LLMs) to detect malicious code in the npm ecosystem. We present SecurityAI, a malicious code review workflow to detect malicious code using ChatGPT. We leverage a benchmark dataset of 5,115 npm packages, of which 2,180 packages have malicious code. We conducted a baseline comparison of GPT-3 and GPT- 4 models with the state-of-the-art CodeQL static analysis tool, using 39 custom CodeQL rules developed in prior research to detect malicious Javascript code. We compare the effectiveness of static analysis as a pre-screener with SecurityAI workflow, measuring the number of files that need to be analyzed and the associated costs. Additionally, we performed a qualitative study to understand the types of malicious packages detected or missed by our workflow. Our baseline comparison demonstrates a 16% and 9% improvement over static analysis in precision and F1 scores, respectively. We attained precision and F1 scores of 91% and 94% for GPT-3, and 99% & 97% for GPT-4, respectively, with GPT-3 offering a cost-effective balance. Pre-screening files with a static analyzer reduces the number of files requiring LLM analysis by 77.9% and decreases costs by 60.9% for GPT-3 and 76.1% for GPT-4. Our qualitative analysis identified data theft, hidden backdoors, and suspicious domain connection categories as the top detected malicious packages.
- Abstract(参考訳): 既存の悪意のあるコード検出技術は、どのパッケージが悪意があるかを予測することで、手動によるレビュープロセスを支援することができる。
しかし、これらのテクニックは、しばしば高い誤分類率に悩まされる。
したがって、より高度で自動化されたアプローチを採用して、高い精度と低い誤分類率を達成することで、悪意のあるコード検出技術を向上させることができる。
本研究の目的は,大規模言語モデル(LLM)を用いてnpmエコシステム内の悪意のあるコードを検出する経験的研究を通じて,悪意のあるパッケージを検出するセキュリティアナリストを支援することである。
悪意のあるコードレビューワークフローであるSecurityAIを紹介し、ChatGPTを使って悪意のあるコードを検出する。
我々は5,115 npmパッケージのベンチマークデータセットを活用し、そのうち2,180パッケージは悪意のあるコードを持っている。
我々は,GPT-3とGPT-4モデルと最先端のCodeQL静的解析ツールのベースライン比較を行った。
静的解析の有効性を,SecurityAIワークフローと比較し,解析が必要なファイル数と関連するコストを計測する。
さらに、ワークフローによって検出または見逃された悪意のあるパッケージの種類を理解するための質的研究を行った。
ベースライン比較では, 静的解析の精度が16%, F1スコアが9%向上した。
GPT-3は91%,F1は94%,GPT-4は99%,GPT-3は97%であった。
静的アナライザによる事前スクリーニングファイルは、LCM解析を必要とするファイルの数を77.9%削減し、GPT-3では60.9%、GPT-4では76.1%削減する。
我々の質的分析では、データ盗難、隠れたバックドア、不審なドメイン接続カテゴリを、最も検出された悪意のあるパッケージとして特定した。
関連論文リスト
- GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。
中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - VGX: Large-Scale Sample Generation for Boosting Learning-Based Software
Vulnerability Analyses [30.65722096096949]
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
VGXは、そのような編集のパターンを使用して、特定コンテキストにおける脆弱性注入コード編集を実現する。
現場でのサンプル生産では、VGXは150,392個の脆弱なサンプルを生成し、ランダムに10%を選択して、これらのサンプルが脆弱性の検出、ローカライゼーション、修復にどの程度役立つかを評価しました。
論文 参考訳(メタデータ) (2023-10-24T01:05:00Z) - Creating Valid Adversarial Examples of Malware [4.817429789586127]
本稿では、強化学習アルゴリズムを用いて、敵のマルウェアの例を生成する。
PPOアルゴリズムを用いて,勾配型決定木(GBDT)モデルに対して53.84%の回避率を達成した。
機能保存型可搬性改造のランダムな適用は、主要なアンチウイルスエンジンを回避できる。
論文 参考訳(メタデータ) (2023-06-23T16:17:45Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文 参考訳(メタデータ) (2021-08-09T14:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。