論文の概要: Mitigating Distribution Shift in Graph-Based Android Malware Classification via Function Metadata and LLM Embeddings
- arxiv url: http://arxiv.org/abs/2508.06734v1
- Date: Fri, 08 Aug 2025 22:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.526165
- Title: Mitigating Distribution Shift in Graph-Based Android Malware Classification via Function Metadata and LLM Embeddings
- Title(参考訳): 関数メタデータとLLM埋め込みを用いたグラフベースのAndroidマルウェア分類における分布変化の緩和
- Authors: Ngoc N. Tran, Anwar Said, Waseem Abbas, Tyler Derr, Xenofon D. Koutsoukos,
- Abstract要約: グラフベースのマルウェア分類器は、標準のAndroidデータセットで94%以上の精度を達成できる。
しかし、これまで見つからなかった同じ家系のマルウェアについて評価すると、正確さは最大45%低下する。
本稿では,コンテキスト特徴を持つ関数呼出グラフを強化する,ロバストなセマンティックエンリッチメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.484494807251197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph-based malware classifiers can achieve over 94% accuracy on standard Android datasets, yet we find they suffer accuracy drops of up to 45% when evaluated on previously unseen malware variants from the same family - a scenario where strong generalization would typically be expected. This highlights a key limitation in existing approaches: both the model architectures and their structure-only representations often fail to capture deeper semantic patterns. In this work, we propose a robust semantic enrichment framework that enhances function call graphs with contextual features, including function-level metadata and, when available, code embeddings derived from large language models. The framework is designed to operate under real-world constraints where feature availability is inconsistent, and supports flexible integration of semantic signals. To evaluate generalization under realistic domain and temporal shifts, we introduce two new benchmarks: MalNet-Tiny-Common and MalNet-Tiny-Distinct, constructed using malware family partitioning to simulate cross-family generalization and evolving threat behavior. Experiments across multiple graph neural network backbones show that our method improves classification performance by up to 8% under distribution shift and consistently enhances robustness when integrated with adaptation-based methods. These results offer a practical path toward building resilient malware detection systems in evolving threat environments.
- Abstract(参考訳): グラフベースのマルウェア分類器は、標準のAndroidデータセットで94%以上の精度を達成できるが、これまで見つからなかった同じファミリーのマルウェアで評価された場合、その精度は最大45%低下する。
モデルアーキテクチャと構造のみの表現は、しばしばより深いセマンティックなパターンを捉えるのに失敗します。
本研究では,関数レベルのメタデータや利用可能な場合,大きな言語モデルから派生したコード埋め込みなど,コンテキスト的特徴を持つ関数呼び出しグラフを強化する,ロバストなセマンティックエンリッチメントフレームワークを提案する。
このフレームワークは、機能アベイラビリティが一貫性のない現実世界の制約の下で動作するように設計されており、セマンティックシグナルの柔軟な統合をサポートする。
現実的な領域と時間的シフト下での一般化を評価するために,マルウェアファミリーパーティショニングを用いて構築されたMalNet-Tiny-CommonとMalNet-Tiny-Distinctの2つの新しいベンチマークを導入する。
複数のグラフニューラルネットワークのバックボーンを用いた実験により,分散シフト下での分類性能は最大8%向上し,適応型手法と統合した場合のロバスト性は一貫して向上することが示された。
これらの結果は、脅威環境の進化において、回復力のあるマルウェア検出システムを構築するための実践的な道筋を提供する。
関連論文リスト
- Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data [41.69043684367127]
表形式のデータに対する敵対攻撃は、画像やテキストドメインとは異なる根本的な課題を示す。
従来の勾配に基づく手法は$ell_p$-norm制約を優先し、許容できない逆の例を生成する。
本研究では,混合入力変分オートエンコーダ(VAE)を用いた遅延空間摂動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T05:34:44Z) - Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Amortized Probabilistic Detection of Communities in Graphs [39.56798207634738]
そこで我々は,アモータイズされたコミュニティ検出のためのシンプルなフレームワークを提案する。
我々はGNNの表現力と最近のアモータイズクラスタリングの手法を組み合わせる。
我々は、合成および実データセットに関するフレームワークから、いくつかのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-29T16:18:48Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。