論文の概要: Leveraging Large Language Models to Detect npm Malicious Packages
- arxiv url: http://arxiv.org/abs/2403.12196v3
- Date: Fri, 13 Dec 2024 04:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:45.700891
- Title: Leveraging Large Language Models to Detect npm Malicious Packages
- Title(参考訳): npmの悪意パッケージ検出に大規模言語モデルを活用する
- Authors: Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams,
- Abstract要約: 本研究では,Large Language Models (LLMs) の有効性を実証的に検討した。
我々は、悪意のあるコードを検出する悪意のあるコードレビューワークフローであるSocketAIを紹介する。
- 参考スコア(独自算出の注目度): 4.479741014073169
- License:
- Abstract: Existing malicious code detection techniques demand the integration of multiple tools to detect different malware patterns, often suffering from high misclassification rates. Therefore, malicious code detection techniques could be enhanced by adopting advanced, more automated approaches to achieve high accuracy and a low misclassification rate. The goal of this study is to aid security analysts in detecting malicious packages by empirically studying the effectiveness of Large Language Models (LLMs) in detecting malicious code. We present SocketAI, a malicious code review workflow to detect malicious code. To evaluate the effectiveness of SocketAI, we leverage a benchmark dataset of 5,115 npm packages, of which 2,180 packages have malicious code. We conducted a baseline comparison of GPT-3 and GPT-4 models with the state-of-the-art CodeQL static analysis tool, using 39 custom CodeQL rules developed in prior research to detect malicious Javascript code. We also compare the effectiveness of static analysis as a pre-screener with SocketAI workflow, measuring the number of files that need to be analyzed. and the associated costs. Additionally, we performed a qualitative study to understand the types of malicious activities detected or missed by our workflow. Our baseline comparison demonstrates a 16% and 9% improvement over static analysis in precision and F1 scores, respectively. GPT-4 achieves higher accuracy with 99% precision and 97% F1 scores, while GPT-3 offers a more cost-effective balance at 91% precision and 94% F1 scores. Pre-screening files with a static analyzer reduces the number of files requiring LLM analysis by 77.9% and decreases costs by 60.9% for GPT-3 and 76.1% for GPT-4. Our qualitative analysis identified data theft, suspicious domain connection, and arbitrary code execution as the top detected malicious activities.
- Abstract(参考訳): 既存の悪意のあるコード検出技術では、異なるマルウェアパターンを検出するために複数のツールを統合する必要がある。
したがって、より高度で自動化されたアプローチを採用して、高い精度と低い誤分類率を達成することで、悪意のあるコード検出技術を向上させることができる。
本研究の目的は,悪意のあるコードの検出において,LLM(Large Language Models)の有効性を実証的に研究することで,悪意のあるパッケージを検出するセキュリティアナリストを支援することである。
我々は、悪意のあるコードを検出する悪意のあるコードレビューワークフローであるSocketAIを紹介する。
SocketAIの有効性を評価するために,5,115 npmパッケージのベンチマークデータセットを活用し,そのうち2,180パッケージが悪意のあるコードを持っている。
我々は、GPT-3とGPT-4モデルと最先端のCodeQL静的解析ツールのベースライン比較を行い、以前の研究で開発された39のカスタムCodeQLルールを用いて、悪意のあるJavascriptコードを検出する。
また、プリスクリーンとして静的解析の有効性をSocketAIワークフローと比較し、解析が必要なファイル数を測定する。
そして関連するコストです
さらに、ワークフローによって検出または見逃された悪意のある活動の種類を理解するための質的研究を行った。
ベースライン比較では, 静的解析の精度が16%, F1スコアが9%向上した。
GPT-4は99%の精度、F1スコアは97%、GPT-3は91%の精度、F1スコアは94%である。
静的アナライザによる事前スクリーニングファイルは、LCM解析を必要とするファイルの数を77.9%削減し、GPT-3では60.9%、GPT-4では76.1%削減する。
質的な分析により、データ盗難、不審なドメイン接続、任意のコード実行が、最も検出された悪意のあるアクティビティとして検出された。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Automated Software Vulnerability Static Code Analysis Using Generative Pre-Trained Transformer Models [0.8192907805418583]
生成事前学習トランスフォーマーモデルは、様々な自然言語処理タスクにおいて驚くほど効果的であることが示されている。
我々は,脆弱なコード構文の存在を自動的に識別するタスクにおいて,オープンソースのGPTモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-31T23:33:26Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。
中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文 参考訳(メタデータ) (2022-12-15T19:49:27Z) - Malicious Code Detection: Run Trace Output Analysis by LSTM [0.0]
長期メモリ(LSTM)による実行トレース出力解析による悪意のあるコード検出手法を提案する。
PEファイルの動的解析から得られたトレース出力からデータセットを作成した。
実験の結果、ISMは87.51%、偽陽性率は18.34%、BSMは99.26%、偽陽性率は2.62%であった。
論文 参考訳(メタデータ) (2021-01-14T15:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。