論文の概要: Automatically Generating Rules of Malicious Software Packages via Large Language Model
- arxiv url: http://arxiv.org/abs/2504.17198v1
- Date: Thu, 24 Apr 2025 02:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.224277
- Title: Automatically Generating Rules of Malicious Software Packages via Large Language Model
- Title(参考訳): 大規模言語モデルによる悪意あるソフトウェアパッケージのルールの自動生成
- Authors: XiangRui Zhang, HaoYu Chen, Yongzhong He, Wenjia Niu, Qiang Li,
- Abstract要約: RuleLLMは、ソフトウェアエコシステムのルール生成タスクを自動化する。
マルウェアからのメタデータとコードスニペットを入力として抽出し、ソフトウェア開発にデプロイ可能なYARAおよびSemルールを生成する。
結果は有望であり、ルールLLMは763のルール(452YARAと311SemLLM)を生成し、精度は85.2%、リコールは91.8%である。
- 参考スコア(独自算出の注目度): 12.727851892298828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's security tools predominantly rely on predefined rules crafted by experts, making them poorly adapted to the emergence of software supply chain attacks. To tackle this limitation, we propose a novel tool, RuleLLM, which leverages large language models (LLMs) to automate rule generation for OSS ecosystems. RuleLLM extracts metadata and code snippets from malware as its input, producing YARA and Semgrep rules that can be directly deployed in software development. Specifically, the rule generation task involves three subtasks: crafting rules, refining rules, and aligning rules. To validate RuleLLM's effectiveness, we implemented a prototype system and conducted experiments on the dataset of 1,633 malicious packages. The results are promising that RuleLLM generated 763 rules (452 YARA and 311 Semgrep) with a precision of 85.2\% and a recall of 91.8\%, outperforming state-of-the-art (SOTA) tools and scored-based approaches. We further analyzed generated rules and proposed a rule taxonomy: 11 categories and 38 subcategories.
- Abstract(参考訳): 今日のセキュリティツールは、主に専門家が作成した事前定義されたルールに依存しており、ソフトウェアサプライチェーン攻撃の出現に不適応である。
この制限に対処するため,OSSエコシステムのルール生成を自動化するために,大規模言語モデル(LLM)を活用する新しいツールであるRuleLLMを提案する。
RuleLLMは、マルウェアからメタデータとコードスニペットを抽出し、YARAおよびSemgrepルールを生成し、ソフトウェア開発に直接デプロイすることができる。
具体的には、ルール生成タスクには、ルールの作成、ルールの精錬、ルールの整合という3つのサブタスクが含まれる。
RuleLLMの有効性を検証するため、プロトタイプシステムを実装し、1,633個の悪意あるパッケージのデータセットについて実験を行った。
その結果、ルールLLMは85.2\%の精度で763のルール(452YARAと311Semgrep)を生成し、91.8\%のリコールを行い、最先端(SOTA)ツールとスコアベースアプローチを上回った。
さらに、生成されたルールを分析し、11のカテゴリと38のサブカテゴリのルール分類を提案した。
関連論文リスト
- Learning Rules from KGs Guided by Language Models [48.858741745144044]
ルール学習手法は、潜在的に欠落する事実を予測するために適用することができる。
規則のランク付けは、高度に不完全あるいは偏りのあるKGよりも特に難しい。
近年のLanguage Models (LM) の台頭により、いくつかの研究が、LMがKG補完の代替手段として利用できると主張している。
論文 参考訳(メタデータ) (2024-09-12T09:27:36Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。
本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。
当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文 参考訳(メタデータ) (2024-08-24T19:11:54Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - FAIR: Filtering of Automatically Induced Rules [29.777290150010504]
本稿では,多数の自動生成ルールからルールをフィルタリングするアルゴリズムを提案する。
本稿では,既存のルールフィルタリング手法と比較して,統計的に有意な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T18:04:54Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Adaptive Multi-view Rule Discovery for Weakly-Supervised Compatible
Products Prediction [6.684074439111303]
電子商取引プラットフォームでは、2つの製品が互いに互換性があるかどうかを予測することは、消費者にとって信頼できる製品レコメンデーションと検索体験を達成するための重要な機能である。
本稿では,製品互換性の弱さを予測できる効果的なラベル付け規則の発見問題について検討する。
AMRuleは,(1)適応的にかつ反復的に現行の弱教師付きモデルを補完して互換性予測を改善する新しい定規を発見できる多視点ルール発見フレームワークであり,(2)構造化属性テーブルと非構造化製品記述の両方から解釈可能なルールを発見する。
論文 参考訳(メタデータ) (2022-06-28T04:11:58Z) - Rewriting a Deep Generative Model [56.91974064348137]
我々は,深層生成モデルによって符号化された特定の規則の操作という,新たな問題設定を導入する。
本稿では,ディープネットワークの層を線形連想メモリとして操作することで,所望のルールを変更する定式化を提案する。
本稿では,生成モデルのルールを対話的に変更し,望ましい効果を得られるユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2020-07-30T17:58:16Z) - Building Rule Hierarchies for Efficient Logical Rule Learning from
Knowledge Graphs [20.251630903853016]
本稿では,ルール階層を用いて非プロミッシングルールを抽出する新しい手法を提案する。
HPMの応用は非プロムルールの除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-29T16:33:30Z) - Towards Learning Instantiated Logical Rules from Knowledge Graphs [20.251630903853016]
本稿では,知識グラフから一階述語論理規則を抽出するために最適化された確率論的学習ルールGPFLを提案する。
GPFLは、抽出された経路を非循環的な抽象規則であるテンプレートに一般化する新しい2段階ルール生成機構を利用する。
オーバーフィッティングルールの存在、予測性能への影響、およびオーバーフィッティングルールをフィルタリングする単純なバリデーション手法の有効性を明らかにする。
論文 参考訳(メタデータ) (2020-03-13T00:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。