論文の概要: Beyond Classification: Evaluating LLMs for Fine-Grained Automatic Malware Behavior Auditing
- arxiv url: http://arxiv.org/abs/2509.14335v1
- Date: Wed, 17 Sep 2025 18:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.936098
- Title: Beyond Classification: Evaluating LLMs for Fine-Grained Automatic Malware Behavior Auditing
- Title(参考訳): 分類を超えて:細粒度自動マルウェア検査のためのLCMの評価
- Authors: Xinran Zheng, Xingzhi Qian, Yiling He, Shuo Yang, Lorenzo Cavallaro,
- Abstract要約: MalEvalは、きめ細かいAndroidマルウェア監査のための包括的なフレームワークである。
近年のマルウェアおよび誤分類良性アプリのキュレートされたデータセットを用いて,広く使用されている7つのLCMを評価した。
MalEvalは、監査段階にまたがる有望な可能性とクリティカルな制限を明らかにしている。
- 参考スコア(独自算出の注目度): 14.680014912507774
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated malware classification has achieved strong detection performance. Yet, malware behavior auditing seeks causal and verifiable explanations of malicious activities -- essential not only to reveal what malware does but also to substantiate such claims with evidence. This task is challenging, as adversarial intent is often hidden within complex, framework-heavy applications, making manual auditing slow and costly. Large Language Models (LLMs) could help address this gap, but their auditing potential remains largely unexplored due to three limitations: (1) scarce fine-grained annotations for fair assessment; (2) abundant benign code obscuring malicious signals; and (3) unverifiable, hallucination-prone outputs undermining attribution credibility. To close this gap, we introduce MalEval, a comprehensive framework for fine-grained Android malware auditing, designed to evaluate how effectively LLMs support auditing under real-world constraints. MalEval provides expert-verified reports and an updated sensitive API list to mitigate ground truth scarcity and reduce noise via static reachability analysis. Function-level structural representations serve as intermediate attribution units for verifiable evaluation. Building on this, we define four analyst-aligned tasks -- function prioritization, evidence attribution, behavior synthesis, and sample discrimination -- together with domain-specific metrics and a unified workload-oriented score. We evaluate seven widely used LLMs on a curated dataset of recent malware and misclassified benign apps, offering the first systematic assessment of their auditing capabilities. MalEval reveals both promising potential and critical limitations across audit stages, providing a reproducible benchmark and foundation for future research on LLM-enhanced malware behavior auditing. MalEval is publicly available at https://github.com/ZhengXR930/MalEval.git
- Abstract(参考訳): マルウェアの自動分類は強力な検出性能を達成した。
しかし、マルウェアの行動監査は、悪意のある活動の因果関係と検証可能な説明を求める。
逆行意図は複雑なフレームワークを多用するアプリケーションに隠されていることが多く、手動の監査が遅くてコストがかかるため、このタスクは難しい。
大きな言語モデル(LLM)は、このギャップに対処するのに役立つが、その監査の可能性は、(1)フェアアセスメントのための細かいアノテーションが不足していること、(2)悪意のある信号を隠蔽する豊富な良性コード、(3)帰属の信頼性を損なう不確実な幻覚のアウトプットの3つの制限により、ほとんど解明されていない。
このギャップを埋めるために,LLMが実世界の制約下での監査をいかに効果的にサポートするかを評価するために設計された,Androidマルウェアの詳細な監査のための包括的なフレームワークであるMalEvalを紹介した。
MalEvalは、専門家が検証したレポートと更新されたセンシティブなAPIリストを提供し、地上の真実の不足を軽減し、静的リーチビリティ分析を通じてノイズを低減する。
関数レベルの構造表現は、検証可能な評価のための中間属性単位として機能する。
これに基づいて、私たちは、機能優先、エビデンス属性、行動合成、サンプル識別の4つのアナリスト整合タスクと、ドメイン固有のメトリクスと統合されたワークロード指向スコアを定義します。
我々は,最近のマルウェアと誤分類された良性アプリのキュレートされたデータセットを用いて,広く使用されている7つのLCMを評価し,監査機能の最初の体系的評価を行った。
MalEvalは、監査段階全体にわたる有望な可能性とクリティカルな制限を明らかにし、再現可能なベンチマークと、LLMが強化したマルウェアの振る舞い監査に関する将来の研究の基礎を提供する。
MalEvalはhttps://github.com/ZhengXR930/MalEval.gitで公開されている。
関連論文リスト
- IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation [49.796717294455796]
経済的なモチベーションのある逸脱を検出するための実践的な監査フレームワークIMMACULATEを提案する。
IMMACULATEは、検証可能な計算を用いて少数のリクエストを選択的に監査し、暗号オーバーヘッドを償却しながら強力な検出保証を達成する。
論文 参考訳(メタデータ) (2026-02-26T07:21:02Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - LLMs as verification oracles for Solidity [1.3887048755037537]
本稿では,この役割において,最先端の推論LLMである GPT-5 を初めて体系的に評価する。
我々は,大規模な検証タスクのデータセット上でその性能をベンチマークし,その出力を確立された形式的検証ツールと比較し,実世界の監査シナリオにおける実効性を評価する。
我々の研究は、AIの収束における新たなフロンティアと、セキュアなスマートコントラクト開発と監査のための形式的手法を示唆している。
論文 参考訳(メタデータ) (2025-09-23T15:32:13Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - On Benchmarking Code LLMs for Android Malware Analysis [13.932151152280689]
大規模言語モデル(LLM)は、様々なコードインテリジェンスタスクにおいて強力な機能を示している。
本稿では,Android マルウェア解析における Code LLM の有効性を評価するためのベンチマークフレームワーク CAMA を提案する。
論文 参考訳(メタデータ) (2025-04-01T12:05:49Z) - CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。
我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文 参考訳(メタデータ) (2025-03-12T14:30:05Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。