論文の概要: Malware Detection based on API Calls: A Reproducibility Study
- arxiv url: http://arxiv.org/abs/2601.08725v1
- Date: Tue, 13 Jan 2026 16:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.295393
- Title: Malware Detection based on API Calls: A Reproducibility Study
- Title(参考訳): APIコールに基づくマルウェア検出:再現性の検討
- Authors: Juhani Merilehto,
- Abstract要約: 本研究では,Felliciousらによるマルウェア検出手法を独立に再現する。
我々は、最初の公開データセット(250,533のトレーニングサンプル、83,511のテストサンプル)を使用し、Unigram、Bigram、Trigram、Combined n gramアプローチの4つのモデル変種を再現した。
F1スコアは全モデルで0.99%から2.57%,APIコール長は2,500。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study independently reproduces the malware detection methodology presented by Felli cious et al. [7], which employs order-invariant API call frequency analysis using Random Forest classification. We utilized the original public dataset (250,533 training samples, 83,511 test samples) and replicated four model variants: Unigram, Bigram, Trigram, and Combined n gram approaches. Our reproduction successfully validated all key findings, achieving F1-scores that exceeded the original results by 0.99% to 2.57% across all models at the optimal API call length of 2,500. The Unigram model achieved F1=0.8717 (original: 0.8631), confirming its ef fectiveness as a lightweight malware detector. Across three independent experimental runs with different random seeds, we observed remarkably consistent results with standard deviations be low 0.5%, demonstrating high reproducibility. This study validates the robustness and scientific rigor of the original methodology while confirming the practical viability of frequency-based API call analysis for malware detection.
- Abstract(参考訳): 本研究では,Felli cious et al [7] が提示したマルウェア検出手法を独立に再現し,ランダムフォレスト分類を用いたオーダー不変API呼び出し頻度分析を行った。
元の公開データセット(250,533のトレーニングサンプル,83,511のテストサンプル)を使用し,Unigram,Bigram,Trigram,Combined n gramアプローチの4つのモデル変種を再現した。
F1スコアは全モデルで0.99%から2.57%,APIコール長は2,500。
ユニグラムモデルはF1=0.8717(元は0.8631)を達成し、軽量のマルウェア検知器としてその効果を確認した。
異なる無作為な種子を用いた3回の独立実験で, 標準偏差が0.5%低く, 再現性が高いことが明らかとなった。
本研究は、マルウェア検出のための周波数ベースのAPIコール分析の実用性を確認しつつ、元の方法論の堅牢性と科学的厳密性を検証するものである。
関連論文リスト
- Noise Injection: Improving Out-of-Distribution Generalization for Limited Size Datasets [0.0]
画像認識のためのディープラーニング(DL)モデルは、異なるデバイスや集団などのデータに一般化できないことが示されている。
本研究では, 基礎的ノイズ注入法(ガウス, スペックル, ポアソン, 塩, ペッパー)の訓練における活用について検討した。
論文 参考訳(メタデータ) (2025-11-05T20:53:59Z) - A Comprehensive Forecasting-Based Framework for Time Series Anomaly Detection: Benchmarking on the Numenta Anomaly Benchmark (NAB) [0.0]
時系列異常検出は、現代のデジタルインフラにとって重要である。
本稿では,従来の手法をディープラーニングアーキテクチャと統合した予測ベースのフレームワークを提案する。
Numenta Anomaly Benchmark の最初の完全評価を行う。
論文 参考訳(メタデータ) (2025-10-13T08:31:42Z) - A Lightweight and Robust Framework for Real-Time Colorectal Polyp Detection Using LOF-Based Preprocessing and YOLO-v11n [2.4896276458398785]
本研究では,ポリプ検出のための新しい,軽量で効率的なフレームワークを提案する。
ノイズの多いデータをフィルタリングするLocal Outlier Factorアルゴリズムと、YOLO-v11nディープラーニングモデルを組み合わせる。
従来のYOLO法と比較して精度と効率が向上した。
論文 参考訳(メタデータ) (2025-07-14T23:36:54Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。