論文の概要: Transfer Learning in Pre-Trained Large Language Models for Malware Detection Based on System Calls
- arxiv url: http://arxiv.org/abs/2405.09318v1
- Date: Wed, 15 May 2024 13:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:26:38.679507
- Title: Transfer Learning in Pre-Trained Large Language Models for Malware Detection Based on System Calls
- Title(参考訳): システムコールに基づくマルウェア検出のための事前学習型大規模言語モデルの伝達学習
- Authors: Pedro Miguel Sánchez Sánchez, Alberto Huertas Celdrán, Gérôme Bovet, Gregorio Martínez Pérez,
- Abstract要約: 本研究は,システムコールデータに基づいてマルウェアを分類するために,大規模言語モデル(LLM)を利用した新しいフレームワークを提案する。
1TBを超えるシステムコールのデータセットによる実験では、BigBirdやLongformerのようなより大きなコンテキストサイズを持つモデルの方が精度が良く、F1スコアは約0.86である。
このアプローチは、ハイテイク環境におけるリアルタイム検出の大きな可能性を示し、サイバー脅威の進化に対する堅牢なソリューションを提供する。
- 参考スコア(独自算出の注目度): 3.5698678013121334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current cybersecurity landscape, protecting military devices such as communication and battlefield management systems against sophisticated cyber attacks is crucial. Malware exploits vulnerabilities through stealth methods, often evading traditional detection mechanisms such as software signatures. The application of ML/DL in vulnerability detection has been extensively explored in the literature. However, current ML/DL vulnerability detection methods struggle with understanding the context and intent behind complex attacks. Integrating large language models (LLMs) with system call analysis offers a promising approach to enhance malware detection. This work presents a novel framework leveraging LLMs to classify malware based on system call data. The framework uses transfer learning to adapt pre-trained LLMs for malware detection. By retraining LLMs on a dataset of benign and malicious system calls, the models are refined to detect signs of malware activity. Experiments with a dataset of over 1TB of system calls demonstrate that models with larger context sizes, such as BigBird and Longformer, achieve superior accuracy and F1-Score of approximately 0.86. The results highlight the importance of context size in improving detection rates and underscore the trade-offs between computational complexity and performance. This approach shows significant potential for real-time detection in high-stakes environments, offering a robust solution to evolving cyber threats.
- Abstract(参考訳): 現在のサイバーセキュリティの世界では、コミュニケーションや戦場管理システムといった軍事機器を高度なサイバー攻撃から守ることが不可欠である。
マルウェアはステルスメソッドを通じて脆弱性を悪用し、ソフトウェアシグネチャなどの従来の検出メカニズムを回避している。
脆弱性検出におけるML/DLの適用は文献で広く研究されている。
しかし、現在のML/DL脆弱性検出手法は、複雑な攻撃の背後にあるコンテキストと意図を理解するのに苦労している。
大規模言語モデル(LLM)とシステムコール分析を統合することは、マルウェア検出を強化するための有望なアプローチを提供する。
本研究は,システムコールデータに基づくマルウェアの分類にLLMを利用する新しいフレームワークを提案する。
このフレームワークは、トランスファーラーニングを使用して、事前訓練されたLLMをマルウェア検出に適用する。
LLMを良質で悪意のあるシステムコールのデータセットで再トレーニングすることにより、モデルが改良され、マルウェアの活動の兆候を検出する。
1TBを超えるシステムコールのデータセットによる実験では、BigBirdやLongformerのようなより大きなコンテキストサイズを持つモデルの方が精度が良く、F1スコアは約0.86である。
その結果、検出率の向上におけるコンテキストサイズの重要性を強調し、計算複雑性と性能のトレードオフを浮き彫りにした。
このアプローチは、ハイテイク環境におけるリアルタイム検出の大きな可能性を示し、サイバー脅威の進化に対する堅牢なソリューションを提供する。
関連論文リスト
- CryptoFormalEval: Integrating LLMs and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection [41.94295877935867]
我々は,新たな暗号プロトコルの脆弱性を自律的に識別する大規模言語モデルの能力を評価するためのベンチマークを導入する。
私たちは、新しい、欠陥のある通信プロトコルのデータセットを作成し、AIエージェントが発見した脆弱性を自動的に検証する方法を設計しました。
論文 参考訳(メタデータ) (2024-11-20T14:16:55Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - A survey on hardware-based malware detection approaches [45.24207460381396]
ハードウェアベースのマルウェア検出アプローチは、ハードウェアパフォーマンスカウンタと機械学習技術を活用する。
このアプローチを慎重に分析し、最も一般的な方法、アルゴリズム、ツール、および輪郭を形成するデータセットを解明します。
この議論は、協調的有効性のための混合ハードウェアとソフトウェアアプローチの構築、ハードウェア監視ユニットの不可欠な拡張、ハードウェアイベントとマルウェアアプリケーションの間の相関関係の理解を深めている。
論文 参考訳(メタデータ) (2023-03-22T13:00:41Z) - Harnessing the Speed and Accuracy of Machine Learning to Advance Cybersecurity [0.0]
従来のシグネチャベースのマルウェア検出方法は、複雑な脅威を検出するのに制限がある。
近年、機械学習はマルウェアを効果的に検出する有望なソリューションとして出現している。
MLアルゴリズムは、大規模なデータセットを分析し、人間が識別するのが困難なパターンを特定することができる。
論文 参考訳(メタデータ) (2023-02-24T02:42:38Z) - Robustness Evaluation of Deep Unsupervised Learning Algorithms for
Intrusion Detection Systems [0.0]
本稿では, 汚染データに対する侵入検出のための6つの最新のディープラーニングアルゴリズムの堅牢性を評価する。
本研究で用いた最先端のアルゴリズムは,データ汚染に敏感であり,データ摂動に対する自己防衛の重要性を明らかにしている。
論文 参考訳(メタデータ) (2022-06-25T02:28:39Z) - ML-based IoT Malware Detection Under Adversarial Settings: A Systematic
Evaluation [9.143713488498513]
本研究は,様々な表現と学習技術を利用した最先端のマルウェア検出手法を体系的に検討する。
本研究では, 剥ぎ取りやパディングなどの機能保存操作によるソフトウェア変異が, 検出精度を著しく低下させることを示した。
論文 参考訳(メタデータ) (2021-08-30T16:54:07Z) - Interpreting Machine Learning Malware Detectors Which Leverage N-gram
Analysis [2.6397379133308214]
サイバーセキュリティアナリストは、常にルールベースや署名ベースの検出と同じくらい解釈可能で理解可能なソリューションを好む。
本研究の目的は,MLベースのマルウェア検出装置に適用した場合の,最先端のMLモデルの解釈可能性の評価である。
論文 参考訳(メタデータ) (2020-01-27T19:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。