論文の概要: MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization
- arxiv url: http://arxiv.org/abs/2406.18379v2
- Date: Wed, 06 Nov 2024 13:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:50.571143
- Title: MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization
- Title(参考訳): MALSIGHT: 繰り返しバイナリマルウェア要約のための悪意のあるソースコードと良質な擬似コード探索
- Authors: Haolang Lu, Hongrui Peng, Guoshun Nan, Jiaoyang Cui, Cheng Wang, Weifei Jin, Songtao Wang, Shengli Pan, Xiaofeng Tao,
- Abstract要約: バイナリマルウェアの記述を生成できる新しいコード要約フレームワークMALSIGHTを提案する。
具体的には,最初のマルウェア要約データセットであるMalSとMalPを構築した。
トレーニング段階では、MalSと良質な擬似コードデータセットに基づいて、新しいLLMベースのコードモデルであるMalT5をチューニングします。
テスト段階では、疑似コード関数をMalT5に繰り返し送り、要約を得る。
- 参考スコア(独自算出の注目度): 13.199589436631776
- License:
- Abstract: Binary malware summarization aims to automatically generate human-readable descriptions of malware behaviors from executable files, facilitating tasks like malware cracking and detection. Previous methods based on Large Language Models (LLMs) have shown great promise. However, they still face significant issues, including poor usability, inaccurate explanations,and incomplete summaries, primarily due to the obscure pseudocode structure and the lack of malware training summaries. Further, calling relationships between functions, which involve the rich interactions within a binary malware, remain largely underexplored. To this end, we propose MALSIGHT, a novel code summarization framework that can iteratively generate descriptions of binary malware by exploring malicious source code and benign pseudocode. Specifically, we construct the first malware summary dataset, MalS and MalP, using an LLM and manually refine this dataset with human effort. At the training stage, we tune our proposed MalT5, a novel LLM-based code model, on the MalS and benign pseudocode datasets. Then, at the test stage, we iteratively feed the pseudocode functions into MalT5 to obtain the summary. Such a procedure facilitates the understanding of pseudocode structure and captures the intricate interactions between functions, thereby benefiting summaries' usability, accuracy, and completeness. Additionally, we propose a novel evaluation benchmark, BLEURT-sum, to measure the quality of summaries. Experiments on three datasets show the effectiveness of the proposed MALSIGHT. Notably, our proposed MalT5, with only 0.77B parameters, delivers comparable performance to much larger Code-Llama.
- Abstract(参考訳): バイナリマルウェアの要約は、実行可能ファイルから人間可読なマルウェアの振る舞いの記述を自動的に生成することを目的としており、マルウェアのひび割れや検出などのタスクを容易にする。
LLM(Large Language Models)に基づいた従来の手法は、大きな可能性を秘めている。
しかし、ユーザビリティの低下、不正確な説明、不完全な要約といった重大な問題に直面している。
さらに、バイナリマルウェア内のリッチな相互作用を含む関数間の関係の呼び出しは、ほとんど探索されていないままである。
そこで本稿では,悪意のあるソースコードを探索し,バイナリマルウェアの記述を反復的に生成する新しいコード要約フレームワークMALSIGHTを提案する。
具体的には、LSMを用いて、最初のマルウェア要約データセットであるMalSとMalPを構築し、このデータセットを人間の努力で手作業で洗練する。
トレーニング段階では、MalSと良質な擬似コードデータセットに基づいて、新しいLLMベースのコードモデルであるMalT5をチューニングします。
次に、テスト段階で擬似関数をMalT5に繰り返しフィードし、要約を得る。
このような手順は、疑似コード構造を理解し、関数間の複雑な相互作用をキャプチャし、要約のユーザビリティ、正確性、完全性に恩恵を与える。
また,要約の質を評価するため,新たな評価ベンチマークBLEURT-sumを提案する。
3つのデータセットの実験は、提案したMALSIGHTの有効性を示している。
特に、提案したMalT5は、わずか0.77Bのパラメータで、はるかに大きなCode-Llamaに匹敵するパフォーマンスを提供する。
関連論文リスト
- Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Deep Learning Fusion For Effective Malware Detection: Leveraging Visual Features [12.431734971186673]
本研究では,マルウェアの実行可能量の異なるモードで学習した畳み込みニューラルネットワークモデルを融合する能力について検討する。
我々は3種類の視覚的マルウェアを利用した新しいマルチモーダル融合アルゴリズムを提案している。
提案した戦略は、与えられたデータセット内のマルウェアを識別する際の検出レート1.00(0-1)である。
論文 参考訳(メタデータ) (2024-05-23T08:32:40Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - An Extractive-and-Abstractive Framework for Source Code Summarization [28.553366270065656]
コード要約は、自然言語の形式で与えられたコードスニペットの要約/記事を自動的に生成することを目的としている。
そこで本研究では,人文的な要約を生成できる新しい抽出・抽象的枠組みを提案する。
論文 参考訳(メタデータ) (2022-06-15T02:14:24Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。