論文の概要: On Benchmarking Code LLMs for Android Malware Analysis
- arxiv url: http://arxiv.org/abs/2504.00694v1
- Date: Tue, 01 Apr 2025 12:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:03.805096
- Title: On Benchmarking Code LLMs for Android Malware Analysis
- Title(参考訳): Android マルウェア解析のためのベンチマークコード LLM について
- Authors: Yiling He, Hongyu She, Xingzhi Qian, Xinran Zheng, Zhuo Chen, Zhan Qin, Lorenzo Cavallaro,
- Abstract要約: 大規模言語モデル(LLM)は、様々なコードインテリジェンスタスクにおいて強力な機能を示しているが、Androidのマルウェア分析に対するその有効性はまだ未定である。
本稿では,Android マルウェア解析タスクにおける Code LLM の有効性を体系的に評価するベンチマークフレームワークである Cama を提案する。
- 参考スコア(独自算出の注目度): 13.932151152280689
- License:
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in various code intelligence tasks. However, their effectiveness for Android malware analysis remains underexplored. Decompiled Android code poses unique challenges for analysis, primarily due to its large volume of functions and the frequent absence of meaningful function names. This paper presents Cama, a benchmarking framework designed to systematically evaluate the effectiveness of Code LLMs in Android malware analysis tasks. Cama specifies structured model outputs (comprising function summaries, refined function names, and maliciousness scores) to support key malware analysis tasks, including malicious function identification and malware purpose summarization. Built on these, it integrates three domain-specific evaluation metrics, consistency, fidelity, and semantic relevance, enabling rigorous stability and effectiveness assessment and cross-model comparison. We construct a benchmark dataset consisting of 118 Android malware samples, encompassing over 7.5 million distinct functions, and use Cama to evaluate four popular open-source models. Our experiments provide insights into how Code LLMs interpret decompiled code and quantify the sensitivity to function renaming, highlighting both the potential and current limitations of Code LLMs in malware analysis tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なコードインテリジェンスタスクにおいて強力な機能を示している。
しかし、Androidのマルウェア分析の有効性はいまだ解明されていない。
逆コンパイルされたAndroidコードは、その大量の関数と、意味のある関数名が頻繁に存在しないために、分析に固有の課題を生じさせる。
本稿では,Android マルウェア解析タスクにおける Code LLM の有効性を体系的に評価するベンチマークフレームワークである Cama を提案する。
Camaは、悪意のある関数の識別やマルウェアの目的の要約を含む主要なマルウェア分析タスクをサポートするために、構造化されたモデル出力(関数要約、洗練された関数名、悪意のある評価スコアを含む)を指定する。
これらに基づいて構築され、3つのドメイン固有の評価指標、一貫性、忠実度、意味的関連性を統合し、厳密な安定性と有効性の評価とモデル間比較を可能にする。
我々は、118のAndroidマルウェアサンプルからなるベンチマークデータセットを構築し、750万以上の異なる関数を包含し、Camaを使用して4つの人気のあるオープンソースモデルを評価する。
我々の実験は、コードLLMが逆コンパイルされたコードをどのように解釈し、関数リネームに対する感度を定量化し、マルウェア解析タスクにおけるコードLLMの可能性と現在の制限の両方を強調している。
関連論文リスト
- LAMD: Context-driven Android Malware Detection and Classification with LLMs [8.582859303611881]
大きな言語モデル(LLM)は、ゼロショット推論と推論機能を備えた有望な代替手段を提供する。
LLMベースのAndroidマルウェア検出を実現するための現実的なコンテキスト駆動型フレームワークであるLAMDを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:01:37Z) - Large Language Models and Code Security: A Systematic Literature Review [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。
LLMはプログラマが知らない脆弱性を導入する可能性がある。
コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文 参考訳(メタデータ) (2024-12-19T16:20:22Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks [112.66827096358857]
大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。
この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T12:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。