論文の概要: On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities
- arxiv url: http://arxiv.org/abs/2306.07118v1
- Date: Mon, 12 Jun 2023 13:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:31:42.685028
- Title: On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities
- Title(参考訳): Androidマルウェア検出のための機械学習パイプライン構築について--実践、課題、機会の手続き的調査
- Authors: Masoud Mehrabi Koushki, Ibrahim AbuAlhaol, Anandharaju Durai Raju,
Yang Zhou, Ronnie Salvador Giagone and Huang Shengqiang
- Abstract要約: スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしている。
提案されたアプローチのいくつかは高いパフォーマンスを達成するが、急速に進化するAndroidマルウェアは、時間とともにその正確性を維持することができない。
- 参考スコア(独自算出の注目度): 4.8460847676785175
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As the smartphone market leader, Android has been a prominent target for
malware attacks. The number of malicious applications (apps) identified for it
has increased continually over the past decade, creating an immense challenge
for all parties involved. For market holders and researchers, in particular,
the large number of samples has made manual malware detection unfeasible,
leading to an influx of research that investigate Machine Learning (ML)
approaches to automate this process. However, while some of the proposed
approaches achieve high performance, rapidly evolving Android malware has made
them unable to maintain their accuracy over time. This has created a need in
the community to conduct further research, and build more flexible ML
pipelines. Doing so, however, is currently hindered by a lack of systematic
overview of the existing literature, to learn from and improve upon the
existing solutions. Existing survey papers often focus only on parts of the ML
process (e.g., data collection or model deployment), while omitting other
important stages, such as model evaluation and explanation. In this paper, we
address this problem with a review of 42 highly-cited papers, spanning a decade
of research (from 2011 to 2021). We introduce a novel procedural taxonomy of
the published literature, covering how they have used ML algorithms, what
features they have engineered, which dimensionality reduction techniques they
have employed, what datasets they have employed for training, and what their
evaluation and explanation strategies are. Drawing from this taxonomy, we also
identify gaps in knowledge and provide ideas for improvement and future work.
- Abstract(参考訳): スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
悪質なアプリケーション(アプリ)の数は過去10年間で継続的に増加しており、関係者全員にとって大きな課題となっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしているため、このプロセスを自動化する機械学習(ML)アプローチを調査する研究が流入している。
しかし,提案手法のいくつかは高い性能を実現する一方で,急速に進化するAndroidマルウェアは,時間とともに精度を維持することができない。
これにより、コミュニティはさらなる研究を行い、より柔軟なMLパイプラインを構築する必要がある。
しかし、現在、既存のソリューションから学び、改善するために、既存の文献の体系的な概要が欠如しているために妨げられている。
既存の調査論文では、MLプロセスの一部(例えば、データ収集やモデル展開)のみに焦点を当て、モデル評価や説明のような他の重要なステージを省略することが多い。
本稿では,10年にわたる研究(2011年~2021年)にまたがる42の論文のレビューを通じて,この問題に対処する。
そこで,本論文では,mlアルゴリズムの活用方法,設計した特徴,採用した次元化手法,トレーニングに用いたデータセット,評価と説明戦略について紹介する。
この分類から、知識のギャップを特定し、改善と将来の仕事のためのアイデアを提供する。
関連論文リスト
- SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - Revisiting Static Feature-Based Android Malware Detection [0.8192907805418583]
本稿では,Androidマルウェア検出における機械学習研究の妥当性を損なう致命的な落とし穴について述べる。
我々は,より公平なモデル比較を可能にするため,データセットと方法論の実践を改善するためのソリューションを提案する。
本研究の目的は,Androidのマルウェア検出やその他のセキュリティ領域における今後の研究を支援することであり,その結果の信頼性と妥当性を高めることである。
論文 参考訳(メタデータ) (2024-09-11T16:37:50Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Unraveling the Key of Machine Learning Solutions for Android Malware
Detection [33.63795751798441]
本稿では,機械学習によるAndroidマルウェア検出に関する包括的調査を行う。
まず、文献を調査し、Androidの機能エンジニアリングとMLモデリングパイプラインに基づいた分類にコントリビューションを分類する。
そして、MLベースのAndroidマルウェア検出のための汎用フレームワークを設計し、異なる研究コミュニティから12の代表的なアプローチを再実装し、有効性、堅牢性、効率性の3つの主要な側面から評価する。
論文 参考訳(メタデータ) (2024-02-05T12:31:19Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Novel Applications for VAE-based Anomaly Detection Systems [5.065947993017157]
深層生成モデリング(DGM)は、与えられたデータセットから始まり、新規で見えないデータを生成することができる。
この技術が有望な応用を示すにつれて、多くの倫理的問題がもたらされる。
研究は、異なるバイアスが深層学習モデルに影響を与え、誤った表現のような社会的問題を引き起こすことを示している。
論文 参考訳(メタデータ) (2022-04-26T20:30:37Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。