論文の概要: DeepStage: Learning Autonomous Defense Policies Against Multi-Stage APT Campaigns
- arxiv url: http://arxiv.org/abs/2603.16969v1
- Date: Tue, 17 Mar 2026 09:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.31195
- Title: DeepStage: Learning Autonomous Defense Policies Against Multi-Stage APT Campaigns
- Title(参考訳): DeepStage: マルチステージAPTキャンペーンに対する自律的な防衛政策の学習
- Authors: Trung V. Phan, Tri Gia Nguyen, Thomas Bauschert,
- Abstract要約: 本稿では,Advanced Threats(APTs)に対する適応的段階認識防御のためのフレームワークであるDeepStageについて述べる。
エンタープライズ環境は部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、ホストの証明とネットワークテレメトリは統合された証明グラフに融合される。
DeepStageはステージ重み付きF1スコアの0.89を達成し、リスクを意識したDRLベースラインを21.9%上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents DeepStage, a deep reinforcement learning (DRL) framework for adaptive, stage-aware defense against Advanced Persistent Threats (APTs). The enterprise environment is modeled as a partially observable Markov decision process (POMDP), where host provenance and network telemetry are fused into unified provenance graphs. Building on our prior work, StageFinder, a graph neural encoder and an LSTM-based stage estimator infer probabilistic attacker stages aligned with the MITRE ATT&CK framework. These stage beliefs, combined with graph embeddings, guide a hierarchical Proximal Policy Optimization (PPO) agent that selects defense actions across monitoring, access control, containment, and remediation. Evaluated in a realistic enterprise testbed using CALDERA-driven APT playbooks, DeepStage achieves a stage-weighted F1-score of 0.89, outperforming a risk-aware DRL baseline by 21.9%. The results demonstrate effective stage-aware and cost-efficient autonomous cyber defense.
- Abstract(参考訳): 本稿では,Advanced Persistent Threats (APTs) に対する適応的かつ段階的防御のための深層強化学習(DRL)フレームワークであるDeepStageを提案する。
エンタープライズ環境は部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、ホストの証明とネットワークテレメトリは統合された証明グラフに融合される。
これまでの研究に基づいて、グラフニューラルエンコーダとLSTMベースのステージ推定器であるStageFinderは、MITRE ATT&CKフレームワークと一致した確率的アタックステージを推定する。
これらの段階的信念とグラフの埋め込みが組み合わさって、監視、アクセス制御、封じ込め、修復にまたがる防衛行動を選択する階層的政策最適化(PPO)エージェントを導く。
CALDERA駆動のAPTプレイブックを用いて現実的なエンタープライズテストベッドで評価され、DeepStageはステージ重み付きF1スコア0.89を達成し、リスクを意識したDRLベースラインを21.9%上回った。
その結果,有効な段階認識とコスト効率の自律型サイバー防御が示された。
関連論文リスト
- Learning the APT Kill Chain: Temporal Reasoning over Provenance Data for Attack Stage Estimation [0.0]
本稿では,融合ホストとネットワーク前駆体データから多段階攻撃進行推定を行うための時間グラフ学習フレームワークを提案する。
実験の結果、StageFinderは0.96のマクロF1スコアを達成し、最先端のベースラインと比較して予測ボラティリティを31%削減した。
論文 参考訳(メタデータ) (2026-03-08T09:48:37Z) - CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning [7.5200963577855875]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、バックドア攻撃に対して本質的に脆弱である。
我々は,厳格な予算の下で高い盗難と破壊性を達成すべく,CS-GBA(Critical Sample-based Gradient-Guided Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2026-01-15T13:57:52Z) - Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning [12.155067662797281]
Pentest-R1は、侵入テストタスクの推論機能を最適化するために設計されたフレームワークである。
環境フィードバックから直接学習し、堅牢なエラー自己補正と適応戦略を開発する。
AutoPenBenchでは、Pentest-R1は24.2%の成功率に達し、ほとんどの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-10T15:14:05Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security [0.3958317527488535]
本稿では,産業用制御システムに適用可能な自律型サイバー防御の可能性を示す。
汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を導入している。
汎用海事型IPMS運用技術(OT)におけるMARLの自律型サイバー防衛意思決定への応用について検討した。
論文 参考訳(メタデータ) (2024-01-18T17:22:22Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。