論文の概要: Learning Optimal Defender Strategies for CAGE-2 using a POMDP Model
- arxiv url: http://arxiv.org/abs/2509.06539v1
- Date: Mon, 08 Sep 2025 10:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.074075
- Title: Learning Optimal Defender Strategies for CAGE-2 using a POMDP Model
- Title(参考訳): POMDPモデルを用いたCAGE-2の最適デフェンダ戦略の学習
- Authors: Duc Huy Le, Rolf Stadler,
- Abstract要約: 部分観測可能なマルコフ決定プロセス(POMDP)の枠組みを用いたCAGE-2の形式モデルを構築する。
このモデルに基づいて,CAGE-2の最適なディフェンダー戦略を定義し,この戦略を効率的に学習する手法を提案する。
我々は,CAGE-2のCybORG環境での手法を評価し,その性能をCAGE-2の最高位であるCARDIFFと比較した。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: CAGE-2 is an accepted benchmark for learning and evaluating defender strategies against cyberattacks. It reflects a scenario where a defender agent protects an IT infrastructure against various attacks. Many defender methods for CAGE-2 have been proposed in the literature. In this paper, we construct a formal model for CAGE-2 using the framework of Partially Observable Markov Decision Process (POMDP). Based on this model, we define an optimal defender strategy for CAGE-2 and introduce a method to efficiently learn this strategy. Our method, called BF-PPO, is based on PPO, and it uses particle filter to mitigate the computational complexity due to the large state space of the CAGE-2 model. We evaluate our method in the CAGE-2 CybORG environment and compare its performance with that of CARDIFF, the highest ranked method on the CAGE-2 leaderboard. We find that our method outperforms CARDIFF regarding the learned defender strategy and the required training time.
- Abstract(参考訳): CAGE-2は、サイバー攻撃に対するディフェンダー戦略を学習し評価するための承認されたベンチマークである。
これは、ディフェンダーエージェントが様々な攻撃に対してITインフラストラクチャを保護するシナリオを反映している。
CAGE-2の多くのディフェンダー法が文献で提案されている。
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)の枠組みを用いて,CAGE-2の形式モデルを構築する。
このモデルに基づいて,CAGE-2の最適なディフェンダー戦略を定義し,この戦略を効率的に学習する手法を提案する。
BF-PPOと呼ばれるこの手法はPPOに基づいており、CAGE-2モデルの大規模な状態空間による計算複雑性を軽減するために粒子フィルタを用いる。
我々は,CAGE-2のCybORG環境での手法を評価し,その性能をCAGE-2の最高位であるCARDIFFと比較した。
本手法は,学習したディフェンダー戦略と必要なトレーニング時間に関して,CARDIFFよりも優れていた。
関連論文リスト
- Co-Paced Learning Strategy Based on Confidence for Flying Bird Object Detection Model Training [9.597393200515377]
本稿では,CPL-BCに基づく協調学習戦略を提案し,それをフライングバードオブジェクト検出モデルのトレーニングプロセスに適用する。
トレーニングが進むにつれて、戦略は徐々に閾値を下げ、それによってモデルがオブジェクトを認識する能力を高める。
CPL-BCは、他のモデル学習手法と比較して、検出精度を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-01-21T11:54:37Z) - Optimal Defender Strategies for CAGE-2 using Causal Modeling and Tree Search [1.2985758871588455]
本稿では,CAGE-2の形式的(因果的)モデルと,証明可能な最適なディフェンダー戦略を生成する手法を提案する。
C-POMCPは、有効性に関して最先端の性能を達成し、最も近い競合手法よりも計算時間で2桁効率が良い。
論文 参考訳(メタデータ) (2024-07-12T18:34:55Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Learning Near-Optimal Intrusion Responses Against Dynamic Attackers [0.0]
自動侵入応答について検討し,攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
準最適ディフェンダー戦略を得るために,近似を用いてナッシュリリアを学習する架空のセルフプレイアルゴリズムを開発した。
このアプローチは、実用的なITインフラストラクチャのための効果的なディフェンダー戦略を生み出すことができる、と私たちは主張する。
論文 参考訳(メタデータ) (2023-01-11T16:36:24Z) - Learning Security Strategies through Game Play and Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
我々は攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
最適なディフェンダー戦略を得るために,架空の自己再生アルゴリズムであるT-FPを導入する。
論文 参考訳(メタデータ) (2022-05-29T15:30:00Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。