Fugu-MT 論文翻訳(概要): Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models

論文の概要: Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models

arxiv url: http://arxiv.org/abs/2403.12196v1
Date: Mon, 18 Mar 2024 19:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:21:58.028984
Title: Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models
Title（参考訳）: レンズのシフト:大規模言語モデルを用いたnpmエコシステム内のマルウェアの検出
Authors: Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams,
Abstract要約: レポートは、世界中の組織の45%が2025年までにソフトウェアサプライチェーン攻撃に遭遇すると予想している。現在のマルウェア検出技術は、良性パッケージとマルウェアパッケージをフィルタリングすることで、手動によるレビュープロセスを支援する。 SocketAI Scannerは,Thoughtの反復自己修正とゼロショットロールプレイチェーンを用いた多段階意思決定マルウェア検出ワークフローである。
参考スコア（独自算出の注目度）: 4.479741014073169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Gartner 2022 report predicts that 45% of organizations worldwide will encounter software supply chain attacks by 2025, highlighting the urgency to improve software supply chain security for community and national interests. Current malware detection techniques aid in the manual review process by filtering benign and malware packages, yet such techniques have high false-positive rates and limited automation support. Therefore, malware detection techniques could benefit from advanced, more automated approaches for accurate and minimally false-positive results. The goal of this study is to assist security analysts in identifying malicious packages through the empirical study of large language models (LLMs) to detect potential malware in the npm ecosystem. We present SocketAI Scanner, a multi-stage decision-maker malware detection workflow using iterative self-refinement and zero-shot-role-play-Chain of Thought (CoT) prompting techniques for ChatGPT. We studied 5,115 npm packages (of which 2,180 are malicious) and performed a baseline comparison of the GPT-3 and GPT-4 models with a static analysis tool. Our findings showed promising results for GPT models with low misclassification alert rates. Our baseline comparison demonstrates a notable improvement over static analysis in precision scores above 25% and F1 scores above 15%. We attained precision and F1 scores of 91% and 94%, respectively, for the GPT-3 model. Overall, GPT-4 demonstrates superior performance in precision (99%) and F1 (97%) scores, while GPT-3 presents a cost-effective balance between performance and expenditure.
Abstract（参考訳）: Gartner 2022のレポートは、世界中の組織の45%が2025年までにソフトウェアサプライチェーンの攻撃に遭遇すると予想しており、コミュニティと国家の利益のためにソフトウェアサプライチェーンのセキュリティを改善する緊急性を強調している。現在のマルウェア検出技術は、良性パッケージとマルウェアパッケージをフィルタリングすることで手動でレビューするのに役立つが、偽陽性率が高く、自動化サポートが限られている。したがって、マルウェア検出技術は、正確かつ最小限の偽陽性結果に対する高度な、より自動化されたアプローチの恩恵を受けることができる。本研究の目的は,大規模言語モデル(LLM)の実証研究を通じて,セキュリティアナリストによる悪意のあるパッケージの特定を支援し,npmエコシステムにおける潜在的なマルウェアを検出することである。本稿では,ChatGPTの反復的自己修正とゼロショットロールプレイチェーンを用いた多段階意思決定マルウェア検出ワークフローであるSocketAI Scannerを提案する。我々は,5,115 npmパッケージ(そのうち2,180は悪意がある)を調査し,静的解析ツールを用いてGPT-3およびGPT-4モデルのベースライン比較を行った。誤分類警告率の低いGPTモデルでは有望な結果が得られた。ベースライン比較では, 25%以上の精度, 15%以上のF1スコアにおいて, 静的解析よりも顕著な改善が見られた。 GPT-3モデルの精度は91%, F1スコアは94%であった。 GPT-4は精度(99%)とF1(97%)が優れており、GPT-3は費用対効果のバランスを示す。

関連論文リスト

Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。 63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文参考訳（メタデータ） (2025-08-06T13:48:38Z)
Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
Shrinking the Generation-Verification Gap with Weak Verifiers [42.538675831498715]
検証者は、生成された候補から応答をスコア付けしてランク付けすることで、言語モデル機能を改善することができる。 Weaverは、複数の弱い不完全な検証器を組み合わせることで、強力な検証器を設計するためのフレームワークである。
論文参考訳（メタデータ） (2025-06-22T23:38:15Z)
Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3 [0.0]
本研究では,この問題に対処するための構造的方法論と評価行列を提案する。データセットは、Java、Python、JavaScript、C++の4つの著名なプログラミング言語にまたがっている。我々は、精度、リコール、F1スコアを評価指標として、OpenAI GPT 4.0とDeepSeek-V3の2つの状態をベンチマークする。
論文参考訳（メタデータ） (2025-04-22T16:44:39Z)
EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。既存のディープラーニング技術と同等ですが、説明性が向上しています。自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文参考訳（メタデータ） (2025-03-22T23:37:35Z)
Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。パッチの有無テストは脆弱性を検出する効果的な方法の1つですパッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-29T04:35:37Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Automated Software Vulnerability Static Code Analysis Using Generative Pre-Trained Transformer Models [0.8192907805418583]
生成事前学習トランスフォーマーモデルは、様々な自然言語処理タスクにおいて驚くほど効果的であることが示されている。我々は,脆弱なコード構文の存在を自動的に識別するタスクにおいて,オープンソースのGPTモデルの有効性を評価する。
論文参考訳（メタデータ） (2024-07-31T23:33:26Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文参考訳（メタデータ） (2024-04-29T01:24:14Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文参考訳（メタデータ） (2023-12-25T21:25:55Z)
Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文参考訳（メタデータ） (2023-12-10T16:14:02Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。 GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文参考訳（メタデータ） (2023-08-20T19:33:12Z)
G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。 FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文参考訳（メタデータ） (2023-06-08T07:15:04Z)
Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。最高性能のベースラインモデルより75倍速く、9分で訓練された。平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文参考訳（メタデータ） (2022-12-15T19:49:27Z)
Malicious Code Detection: Run Trace Output Analysis by LSTM [0.0]
長期メモリ(LSTM)による実行トレース出力解析による悪意のあるコード検出手法を提案する。 PEファイルの動的解析から得られたトレース出力からデータセットを作成した。実験の結果、ISMは87.51%、偽陽性率は18.34%、BSMは99.26%、偽陽性率は2.62%であった。
論文参考訳（メタデータ） (2021-01-14T15:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。