論文の概要: On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities
- arxiv url: http://arxiv.org/abs/2306.07118v1
- Date: Mon, 12 Jun 2023 13:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:31:42.685028
- Title: On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities
- Title(参考訳): Androidマルウェア検出のための機械学習パイプライン構築について--実践、課題、機会の手続き的調査
- Authors: Masoud Mehrabi Koushki, Ibrahim AbuAlhaol, Anandharaju Durai Raju,
Yang Zhou, Ronnie Salvador Giagone and Huang Shengqiang
- Abstract要約: スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしている。
提案されたアプローチのいくつかは高いパフォーマンスを達成するが、急速に進化するAndroidマルウェアは、時間とともにその正確性を維持することができない。
- 参考スコア(独自算出の注目度): 4.8460847676785175
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As the smartphone market leader, Android has been a prominent target for
malware attacks. The number of malicious applications (apps) identified for it
has increased continually over the past decade, creating an immense challenge
for all parties involved. For market holders and researchers, in particular,
the large number of samples has made manual malware detection unfeasible,
leading to an influx of research that investigate Machine Learning (ML)
approaches to automate this process. However, while some of the proposed
approaches achieve high performance, rapidly evolving Android malware has made
them unable to maintain their accuracy over time. This has created a need in
the community to conduct further research, and build more flexible ML
pipelines. Doing so, however, is currently hindered by a lack of systematic
overview of the existing literature, to learn from and improve upon the
existing solutions. Existing survey papers often focus only on parts of the ML
process (e.g., data collection or model deployment), while omitting other
important stages, such as model evaluation and explanation. In this paper, we
address this problem with a review of 42 highly-cited papers, spanning a decade
of research (from 2011 to 2021). We introduce a novel procedural taxonomy of
the published literature, covering how they have used ML algorithms, what
features they have engineered, which dimensionality reduction techniques they
have employed, what datasets they have employed for training, and what their
evaluation and explanation strategies are. Drawing from this taxonomy, we also
identify gaps in knowledge and provide ideas for improvement and future work.
- Abstract(参考訳): スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
悪質なアプリケーション(アプリ)の数は過去10年間で継続的に増加しており、関係者全員にとって大きな課題となっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしているため、このプロセスを自動化する機械学習(ML)アプローチを調査する研究が流入している。
しかし,提案手法のいくつかは高い性能を実現する一方で,急速に進化するAndroidマルウェアは,時間とともに精度を維持することができない。
これにより、コミュニティはさらなる研究を行い、より柔軟なMLパイプラインを構築する必要がある。
しかし、現在、既存のソリューションから学び、改善するために、既存の文献の体系的な概要が欠如しているために妨げられている。
既存の調査論文では、MLプロセスの一部(例えば、データ収集やモデル展開)のみに焦点を当て、モデル評価や説明のような他の重要なステージを省略することが多い。
本稿では,10年にわたる研究(2011年~2021年)にまたがる42の論文のレビューを通じて,この問題に対処する。
そこで,本論文では,mlアルゴリズムの活用方法,設計した特徴,採用した次元化手法,トレーニングに用いたデータセット,評価と説明戦略について紹介する。
この分類から、知識のギャップを特定し、改善と将来の仕事のためのアイデアを提供する。
関連論文リスト
- Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Unraveling the Key of Machine Learning Solutions for Android Malware
Detection [33.63795751798441]
本稿では,機械学習によるAndroidマルウェア検出に関する包括的調査を行う。
まず、文献を調査し、Androidの機能エンジニアリングとMLモデリングパイプラインに基づいた分類にコントリビューションを分類する。
そして、MLベースのAndroidマルウェア検出のための汎用フレームワークを設計し、異なる研究コミュニティから12の代表的なアプローチを再実装し、有効性、堅牢性、効率性の3つの主要な側面から評価する。
論文 参考訳(メタデータ) (2024-02-05T12:31:19Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - A Comprehensive Investigation of Feature and Model Importance in Android
Malware Detection [0.17205106391379021]
我々は16の代表的な過去の作品を再実装し、124,000のAndroidアプリケーションからなるバランスのとれた、関連性の高い最新のデータセットでそれらを評価した。
以上の結果から,静的特徴だけで96.8%の精度を達成できることが示唆された。
APIコールの利用とTCPネットワークのトラフィック機能から構築された、ランダムなフォレストとして最高のモデルを見つけました。
論文 参考訳(メタデータ) (2023-01-30T10:48:10Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Novel Applications for VAE-based Anomaly Detection Systems [5.065947993017157]
深層生成モデリング(DGM)は、与えられたデータセットから始まり、新規で見えないデータを生成することができる。
この技術が有望な応用を示すにつれて、多くの倫理的問題がもたらされる。
研究は、異なるバイアスが深層学習モデルに影響を与え、誤った表現のような社会的問題を引き起こすことを示している。
論文 参考訳(メタデータ) (2022-04-26T20:30:37Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - A Systematic Literature Review on the Use of Deep Learning in Software
Engineering Research [22.21817722054742]
ソフトウェア開発タスクを自動化するために、ソフトウェア工学(SE)研究者が採用するテクニックのセットが、ディープラーニング(DL)の概念に根ざしている。
本稿では,SE & DLの交差点における研究の体系的な文献レビューを行う。
我々は、機械学習技術の特定の問題領域への適用を規定する一連の原則である学習の構成要素を中心に分析を行う。
論文 参考訳(メタデータ) (2020-09-14T15:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。