論文の概要: TL-RL-FusionNet: An Adaptive and Efficient Reinforcement Learning-Driven Transfer Learning Framework for Detecting Evolving Ransomware Threats
- arxiv url: http://arxiv.org/abs/2604.20260v1
- Date: Wed, 22 Apr 2026 07:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.005797
- Title: TL-RL-FusionNet: An Adaptive and Efficient Reinforcement Learning-Driven Transfer Learning Framework for Detecting Evolving Ransomware Threats
- Title(参考訳): TL-RL-FusionNet: ランサムウェアの脅威を検出するための適応的で効率的な強化学習駆動型トランスファー学習フレームワーク
- Authors: Jannatul Ferdous, Rafiqul Islam, Arash Mahboubi, Md Zahidul Islam,
- Abstract要約: 現代のランサムウェアは、検出を避けるために頻繁に実行パターンを変更することで、多形的かつ回避的な振る舞いを示す。
本稿では, 冷凍二重転写学習(TL)を特徴抽出器として組み込んだ強化学習(RL)誘導ハイブリッドフレームワークであるTL-RL-FusionNetを提案する。
実験の結果、TL-RL-Netは99.1%の精度、98.6%の精度、99.6%のリコール、99.74%のAUCを達成した。
- 参考スコア(独自算出の注目度): 2.3008238872220548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern ransomware exhibits polymorphic and evasive behaviors by frequently modifying execution patterns to evade detection. This dynamic nature disrupts feature spaces and limits the effectiveness of static or predefined models. To address this challenge, we propose TL-RL-FusionNet, a reinforcement learning (RL)-guided hybrid framework that integrates frozen dual transfer learning (TL) backbones as feature extractors with a lightweight residual multilayer perceptron (MLP) classifier. The RL agent supervises training by adaptively reweighting samples in response to variations in observable ransomware behavior. Through reward and penalty signals, the agent prioritizes complex cases such as stealthy or polymorphic ransomware employing obfuscation, while down-weighting trivial samples including benign applications with simple file I/O operations or easily classified ransomware. This adaptive mechanism enables the model to dynamically refine its strategy, improving resilience against evolving threats while maintaining strong classification performance. The framework utilizes dynamic behavioral features such as file system activity, registry changes, network traffic, API calls, and anti-analysis checks, extracted from sandbox-generated JSON reports. These features are transformed into RGB images and processed using frozen EfficientNetB0 and InceptionV3 models to capture rich feature representations efficiently. Final classification is performed by a lightweight residual MLP guided by an RL (Q-learning) agent. Experiments on a balanced dataset of 1,000 samples (500 ransomware, 500 benign) show that TL-RL-FusionNet achieves 99.1% accuracy, 98.6% precision, 99.6% recall, and 99.74% AUC, outperforming non-RL baselines by up to 2.5% in accuracy and 3.1% in recall. Efficiency analysis shows 55% lower training time and 59% reduced RAM usage, demonstrating suitability for real-world deployment.
- Abstract(参考訳): 現代のランサムウェアは、検出を避けるために頻繁に実行パターンを変更することで、多形的かつ回避的な振る舞いを示す。
この動的な性質は特徴空間を乱し、静的または事前定義されたモデルの有効性を制限する。
この課題に対処するため, TL-RL-FusionNetは, 凍結二重転写学習(TL)バックボーンを特徴抽出器として, 軽量残留多層パーセプトロン(MLP)分類器として統合した強化学習(RL)誘導ハイブリッドフレームワークである。
RLエージェントは、観測可能なランサムウェアの振る舞いの変化に応じてサンプルを適応的に重み付けすることでトレーニングを監督する。
報酬とペナルティ信号を通じて、エージェントは難読化を利用したステルスや多形ランサムウェアなどの複雑なケースを優先順位付けする一方、単純なファイルI/O操作や簡単に分類されたランサムウェアを備えた良質なアプリケーションを含む自明なサンプルを減量する。
この適応メカニズムにより、モデルは戦略を動的に洗練し、強力な分類性能を維持しながら、進化する脅威に対するレジリエンスを向上させることができる。
このフレームワークは、ファイルシステムのアクティビティ、レジストリの変更、ネットワークトラフィック、API呼び出し、サンドボックス生成JSONレポートから抽出されたアンチアナリシスチェックなどの動的動作機能を利用する。
これらの機能はRGBイメージに変換され、凍結されたEfficientNetB0とInceptionV3モデルを使用して処理され、リッチな特徴表現を効率的にキャプチャする。
最終分類は、RL(Q-learning)エージェントによって誘導される軽量残留MLPによって行われる。
1000サンプル(ランサムウェア500個、良心500個)のバランスの取れたデータセットの実験では、TL-RL-FusionNetは99.1%の精度、98.6%の精度、99.6%のリコール、99.74%のAUCを達成し、RL以外のベースラインを最大2.5%、リコール3.1%の精度で上回った。
効率分析では、トレーニング時間が55%減少し、RAM使用量が59%削減された。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Generative Active Adaptation for Drifting and Imbalanced Network Intrusion Detection [14.728689487990836]
生成能動適応フレームワークは、モデルロバスト性を高めながらラベリング作業を最小化する。
我々は、シミュレーションIDSデータと実世界のISPデータセットの両方に基づいて、エンドツーエンドフレームワークNetGuardを評価した。
論文 参考訳(メタデータ) (2025-03-04T21:49:42Z) - iCNN-LSTM: A batch-based incremental ransomware detection system using Sysmon [1.495391051525033]
本研究では,畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ネットワークを統合した新しい検出システムを提案する。
Sysmonログを活用することで、システムはWindowsベースのエンドポイント上でリアルタイムの分析を可能にする。
論文 参考訳(メタデータ) (2025-01-02T05:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。