論文の概要: Integrating APK Image and Text Data for Enhanced Threat Detection: A Multimodal Deep Learning Approach to Android Malware
- arxiv url: http://arxiv.org/abs/2601.08959v1
- Date: Tue, 13 Jan 2026 19:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.155612
- Title: Integrating APK Image and Text Data for Enhanced Threat Detection: A Multimodal Deep Learning Approach to Android Malware
- Title(参考訳): APK画像とテキストデータの統合による脅威検出の強化:Androidマルウェアに対するマルチモーダルディープラーニングアプローチ
- Authors: Md Mashrur Arifin, Maqsudur Rahman, Nasir U. Eisty,
- Abstract要約: 本稿では,APK画像とテキスト機能を統合したマルチモーダルディープラーニングフレームワークを提案する。
我々は、VGG、ResNet-152、MobileNet、DenseNet、EfficientNet-B4など、さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャのさまざまな画像タイプと解像度を評価する。
この結果から,高解像度のRGB画像(例えば256x256, 512x512)はより優れた分類性能を示し,CLIPモデルを用いた画像とテキストのマルチモーダル統合は限られた可能性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As zero-day Android malware attacks grow more sophisticated, recent research highlights the effectiveness of using image-based representations of malware bytecode to detect previously unseen threats. However, existing studies often overlook how image type and resolution affect detection and ignore valuable textual data in Android Application Packages (APKs), such as permissions and metadata, limiting their ability to fully capture malicious behavior. The integration of multimodality, which combines image and text data, has gained momentum as a promising approach to address these limitations. This paper proposes a multimodal deep learning framework integrating APK images and textual features to enhance Android malware detection. We systematically evaluate various image types and resolutions across different Convolutional Neural Networks (CNN) architectures, including VGG, ResNet-152, MobileNet, DenseNet, EfficientNet-B4, and use LLaMA-2, a large language model, to extract and annotate textual features for improved analysis. The findings demonstrate that RGB images at higher resolutions (e.g., 256x256, 512x512) achieve superior classification performance, while the multimodal integration of image and text using the CLIP model reveals limited potential. Overall, this research highlights the importance of systematically evaluating image attributes and integrating multimodal data to develop effective malware detection for Android systems.
- Abstract(参考訳): ゼロデイのAndroidマルウェア攻撃がより洗練されるにつれて、最近の研究は、マルウェアバイトコードのイメージベースの表現を使用して、これまで見つからなかった脅威を検出する効果を強調している。
しかし、既存の研究では、イメージタイプと解像度がAndroid Application Packages(APK)の貴重なテキストデータの検出や無視にどのように影響するかを見落としていることが多い。
画像とテキストデータを組み合わせたマルチモーダルの統合は、これらの制限に対処するための有望なアプローチとして勢いを増している。
本稿では,APK画像とテキスト機能を統合したマルチモーダルディープラーニングフレームワークを提案する。
我々は,VGG,ResNet-152,MobileNet,DenseNet,EfficientNet-B4など,さまざまなコンボリューショナルニューラルネットワーク(CNN)アーキテクチャのさまざまな画像タイプと解像度を体系的に評価し,大規模言語モデルであるLLaMA-2を用いて解析を改善した。
以上の結果から,高解像度のRGB画像(例えば256x256,512x512)はより優れた分類性能を示し,CLIPモデルを用いた画像とテキストのマルチモーダル統合は限られた可能性を示した。
本研究は、画像属性を体系的に評価し、マルチモーダルデータを統合して、Androidシステムに有効なマルウェア検出を開発することの重要性を強調した。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - Generating Multimodal Images with GAN: Integrating Text, Image, and Style [7.481665175881685]
GAN(Generative Adversarial Networks)に基づくマルチモーダル画像生成手法を提案する。
この方法は、テキストエンコーダ、画像特徴抽出器、スタイル統合モジュールの設計を含む。
実験結果から,提案手法は複数の公開データセットにまたがって,高い明瞭度と一貫性を有する画像を生成することがわかった。
論文 参考訳(メタデータ) (2025-01-04T02:51:28Z) - Android Malware Detection Based on RGB Images and Multi-feature Fusion [3.1244204900991623]
本稿では,RGB画像と多機能融合に基づくエンドツーエンドのAndroidマルウェア検出手法を提案する。
実験の結果,提案手法はAndroidのマルウェア特性を効果的に把握し,97.25%の精度を実現している。
論文 参考訳(メタデータ) (2024-08-29T14:18:54Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - DexRay: A Simple, yet Effective Deep Learning Approach to Android Malware Detection based on Image Representation of Bytecode [7.556301451015502]
画像に基づくマルウェア検出のためのベースラインパイプラインを,簡単なステップで開発・評価する。
アプリケーションDEXファイルのバイトコードをグレースケールの「ベクター」画像に変換し、1次元畳み込みニューラルネットワークモデルにフィードするDexRayを提案する。
158k以上のアプリケーションで評価されたDexRayの性能は、単純ではあるが、我々のアプローチは高い検出率で有効であることを示している。
論文 参考訳(メタデータ) (2021-09-05T16:33:05Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。