論文の概要: Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12196v1
- Date: Mon, 18 Mar 2024 19:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:21:58.028984
- Title: Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models
- Title(参考訳): レンズのシフト:大規模言語モデルを用いたnpmエコシステム内のマルウェアの検出
- Authors: Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams,
- Abstract要約: レポートは、世界中の組織の45%が2025年までにソフトウェアサプライチェーン攻撃に遭遇すると予想している。
現在のマルウェア検出技術は、良性パッケージとマルウェアパッケージをフィルタリングすることで、手動によるレビュープロセスを支援する。
SocketAI Scannerは,Thoughtの反復自己修正とゼロショットロールプレイチェーンを用いた多段階意思決定マルウェア検出ワークフローである。
- 参考スコア(独自算出の注目度): 4.479741014073169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Gartner 2022 report predicts that 45% of organizations worldwide will encounter software supply chain attacks by 2025, highlighting the urgency to improve software supply chain security for community and national interests. Current malware detection techniques aid in the manual review process by filtering benign and malware packages, yet such techniques have high false-positive rates and limited automation support. Therefore, malware detection techniques could benefit from advanced, more automated approaches for accurate and minimally false-positive results. The goal of this study is to assist security analysts in identifying malicious packages through the empirical study of large language models (LLMs) to detect potential malware in the npm ecosystem. We present SocketAI Scanner, a multi-stage decision-maker malware detection workflow using iterative self-refinement and zero-shot-role-play-Chain of Thought (CoT) prompting techniques for ChatGPT. We studied 5,115 npm packages (of which 2,180 are malicious) and performed a baseline comparison of the GPT-3 and GPT-4 models with a static analysis tool. Our findings showed promising results for GPT models with low misclassification alert rates. Our baseline comparison demonstrates a notable improvement over static analysis in precision scores above 25% and F1 scores above 15%. We attained precision and F1 scores of 91% and 94%, respectively, for the GPT-3 model. Overall, GPT-4 demonstrates superior performance in precision (99%) and F1 (97%) scores, while GPT-3 presents a cost-effective balance between performance and expenditure.
- Abstract(参考訳): Gartner 2022のレポートは、世界中の組織の45%が2025年までにソフトウェアサプライチェーンの攻撃に遭遇すると予想しており、コミュニティと国家の利益のためにソフトウェアサプライチェーンのセキュリティを改善する緊急性を強調している。
現在のマルウェア検出技術は、良性パッケージとマルウェアパッケージをフィルタリングすることで手動でレビューするのに役立つが、偽陽性率が高く、自動化サポートが限られている。
したがって、マルウェア検出技術は、正確かつ最小限の偽陽性結果に対する高度な、より自動化されたアプローチの恩恵を受けることができる。
本研究の目的は,大規模言語モデル(LLM)の実証研究を通じて,セキュリティアナリストによる悪意のあるパッケージの特定を支援し,npmエコシステムにおける潜在的なマルウェアを検出することである。
本稿では,ChatGPTの反復的自己修正とゼロショットロールプレイチェーンを用いた多段階意思決定マルウェア検出ワークフローであるSocketAI Scannerを提案する。
我々は,5,115 npmパッケージ(そのうち2,180は悪意がある)を調査し,静的解析ツールを用いてGPT-3およびGPT-4モデルのベースライン比較を行った。
誤分類警告率の低いGPTモデルでは有望な結果が得られた。
ベースライン比較では, 25%以上の精度, 15%以上のF1スコアにおいて, 静的解析よりも顕著な改善が見られた。
GPT-3モデルの精度は91%, F1スコアは94%であった。
GPT-4は精度(99%)とF1(97%)が優れており、GPT-3は費用対効果のバランスを示す。
関連論文リスト
- GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。
中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - VGX: Large-Scale Sample Generation for Boosting Learning-Based Software
Vulnerability Analyses [30.65722096096949]
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
VGXは、そのような編集のパターンを使用して、特定コンテキストにおける脆弱性注入コード編集を実現する。
現場でのサンプル生産では、VGXは150,392個の脆弱なサンプルを生成し、ランダムに10%を選択して、これらのサンプルが脆弱性の検出、ローカライゼーション、修復にどの程度役立つかを評価しました。
論文 参考訳(メタデータ) (2023-10-24T01:05:00Z) - Creating Valid Adversarial Examples of Malware [4.817429789586127]
本稿では、強化学習アルゴリズムを用いて、敵のマルウェアの例を生成する。
PPOアルゴリズムを用いて,勾配型決定木(GBDT)モデルに対して53.84%の回避率を達成した。
機能保存型可搬性改造のランダムな適用は、主要なアンチウイルスエンジンを回避できる。
論文 参考訳(メタデータ) (2023-06-23T16:17:45Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文 参考訳(メタデータ) (2021-08-09T14:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。