論文の概要: On Benchmarking Code LLMs for Android Malware Analysis
- arxiv url: http://arxiv.org/abs/2504.00694v2
- Date: Wed, 23 Apr 2025 16:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 20:25:50.819522
- Title: On Benchmarking Code LLMs for Android Malware Analysis
- Title(参考訳): Android マルウェア解析のためのベンチマークコード LLM について
- Authors: Yiling He, Hongyu She, Xingzhi Qian, Xinran Zheng, Zhuo Chen, Zhan Qin, Lorenzo Cavallaro,
- Abstract要約: 大規模言語モデル(LLM)は、様々なコードインテリジェンスタスクにおいて強力な機能を示している。
本稿では,Android マルウェア解析における Code LLM の有効性を評価するためのベンチマークフレームワーク CAMA を提案する。
- 参考スコア(独自算出の注目度): 13.932151152280689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in various code intelligence tasks. However, their effectiveness for Android malware analysis remains underexplored. Decompiled Android malware code presents unique challenges for analysis, due to the malicious logic being buried within a large number of functions and the frequent lack of meaningful function names. This paper presents CAMA, a benchmarking framework designed to systematically evaluate the effectiveness of Code LLMs in Android malware analysis. CAMA specifies structured model outputs to support key malware analysis tasks, including malicious function identification and malware purpose summarization. Built on these, it integrates three domain-specific evaluation metrics (consistency, fidelity, and semantic relevance), enabling rigorous stability and effectiveness assessment and cross-model comparison. We construct a benchmark dataset of 118 Android malware samples from 13 families collected in recent years, encompassing over 7.5 million distinct functions, and use CAMA to evaluate four popular open-source Code LLMs. Our experiments provide insights into how Code LLMs interpret decompiled code and quantify the sensitivity to function renaming, highlighting both their potential and current limitations in malware analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なコードインテリジェンスタスクにおいて強力な機能を示している。
しかし、Androidのマルウェア分析の有効性はいまだ解明されていない。
逆コンパイルされたAndroidのマルウェアコードは、悪意のあるロジックが多数の関数に埋もれており、意味のある関数名が頻繁に欠落しているため、分析にユニークな課題がある。
本稿では,Android マルウェア解析における Code LLM の有効性を体系的に評価するベンチマークフレームワーク CAMA を提案する。
CAMAは、悪意のある機能識別やマルウェアの目的の要約を含む主要なマルウェア分析タスクをサポートするために、構造化されたモデル出力を指定する。
これらに基づいて構築され、3つのドメイン固有の評価指標(一貫性、忠実性、意味的関連性)を統合し、厳密な安定性と有効性の評価とモデル間比較を可能にする。
近年収集された13の家系の118のAndroidマルウェアサンプルのベンチマークデータセットを構築し、750万以上の異なる関数を包含し、CAMAを使用して4つの人気のあるオープンソースコードLLMを評価する。
我々の実験は、コードLLMが逆コンパイルコードをどのように解釈し、関数のリネームに対する感度を定量化し、マルウェア解析におけるその可能性と現在の限界の両方を強調している。
関連論文リスト
- MaLAware: Automating the Comprehension of Malicious Software Behaviours using Large Language Models (LLMs) [3.410195565199523]
MaLAwareは、生のマルウェアデータを人間可読な記述に変換するツールである。
MALAwareは、Cuckoo Sandboxの生成したレポートを処理し、悪性度を相関させ、簡潔な要約を生成する。
評価では,人間によるマルウェアの行動記述データセットを基礎的真理として用いた。
論文 参考訳(メタデータ) (2025-04-01T19:27:17Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - LAMD: Context-driven Android Malware Detection and Classification with LLMs [8.582859303611881]
大きな言語モデル(LLM)は、ゼロショット推論と推論機能を備えた有望な代替手段を提供する。
LLMベースのAndroidマルウェア検出を実現するための現実的なコンテキスト駆動型フレームワークであるLAMDを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:01:37Z) - Exploring Large Language Models for Semantic Analysis and Categorization of Android Malware [0.0]
mspは、階層的な階層化チェーンと戦略的プロンプトエンジニアリングを通じて、Androidのマルウェア分析を強化するように設計されている。
mspは、関数、クラス、パッケージレベルで非常に堅牢な要約を提供しながら、最大77%の分類精度を達成することができる。
論文 参考訳(メタデータ) (2025-01-08T21:22:45Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - How Does Naming Affect LLMs on Code Analysis Tasks? [8.150719423943109]
自然言語処理(NLP)において,Large Language Models (LLMs) が提案され,汎用言語モデルとして有望な結果が得られた。
本稿では,コード解析タスクにおける命名がLLMに与える影響について検討する。
論文 参考訳(メタデータ) (2023-07-24T02:38:24Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。