論文の概要: Entity-based Reinforcement Learning for Autonomous Cyber Defence
- arxiv url: http://arxiv.org/abs/2410.17647v2
- Date: Fri, 06 Dec 2024 18:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:53:48.626722
- Title: Entity-based Reinforcement Learning for Autonomous Cyber Defence
- Title(参考訳): 自律型サイバー防衛のためのエンティティベース強化学習
- Authors: Isaac Symes Thompson, Alberto Caron, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 自律的なサイバー防衛の鍵となる課題は、防御エージェントが様々なネットワークトポロジや構成をまたいで一般化する能力を確保することである。
深層強化学習への標準的アプローチは、一定の大きさの観測と行動空間を期待する。
自律型サイバー防衛では、訓練対象と異なるネットワークトポロジを持つ環境に一般化するエージェントを開発することが困難になる。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License:
- Abstract: A significant challenge for autonomous cyber defence is ensuring a defensive agent's ability to generalise across diverse network topologies and configurations. This capability is necessary for agents to remain effective when deployed in dynamically changing environments, such as an enterprise network where devices may frequently join and leave. Standard approaches to deep reinforcement learning, where policies are parameterised using a fixed-input multi-layer perceptron (MLP) expect fixed-size observation and action spaces. In autonomous cyber defence, this makes it hard to develop agents that generalise to environments with network topologies different from those trained on, as the number of nodes affects the natural size of the observation and action spaces. To overcome this limitation, we reframe the problem of autonomous network defence using entity-based reinforcement learning, where the observation and action space of an agent are decomposed into a collection of discrete entities. This framework enables the use of policy parameterisations specialised in compositional generalisation. We train a Transformer-based policy on the Yawning Titan cyber-security simulation environment and test its generalisation capabilities across various network topologies. We demonstrate that this approach significantly outperforms an MLP-based policy when training across fixed-size networks of varying topologies, and matches performance when training on a single network. We also demonstrate the potential for zero-shot generalisation to networks of a different size to those seen in training. These findings highlight the potential for entity-based reinforcement learning to advance the field of autonomous cyber defence by providing more generalisable policies capable of handling variations in real-world network environments.
- Abstract(参考訳): 自律的なサイバー防衛において重要な課題は、防御エージェントが様々なネットワークトポロジや構成をまたいで一般化する能力を確保することである。
この機能は、デバイスが頻繁に参加して離脱するエンタープライズネットワークなど、動的に変化する環境にデプロイされた時に、エージェントが効果的に留まる必要がある。
固定入力多層パーセプトロン(MLP)を用いてポリシーをパラメータ化する深層強化学習への標準的アプローチは、固定サイズ観測とアクション空間を期待する。
自律型サイバー防衛では、ノードの数が観測空間や行動空間の自然サイズに影響を与えるため、ネットワークトポロジが異なる環境に一般化するエージェントの開発が困難になる。
この制限を克服するために、エージェントの観察と行動空間を独立したエンティティの集合に分解するエンティティベースの強化学習を用いて、自律的なネットワーク防御の問題を再構築する。
このフレームワークは、構成一般化に特化したポリシーパラメータ化の使用を可能にする。
我々は、Yawning Titanのサイバーセキュリティシミュレーション環境上でTransformerベースのポリシーをトレーニングし、その一般化能力を様々なネットワークトポロジでテストする。
提案手法は, 異なるトポロジの固定サイズネットワーク間のトレーニングにおいて, MLP ベースのポリシを著しく上回り, 単一ネットワーク上でのトレーニングでは性能に匹敵することを示す。
また、トレーニングで見られるものとは異なる大きさのネットワークに対するゼロショット一般化の可能性を示す。
これらの知見は、現実のネットワーク環境の変動に対処可能な、より汎用的なポリシーを提供することによって、自律的なサイバー防衛分野を前進させるエンティティベースの強化学習の可能性を強調している。
関連論文リスト
- An Attentive Graph Agent for Topology-Adaptive Cyber Defence [1.0812794909131096]
我々は,ネットワーク状態を有向グラフとして符号化するCyber Operations Research Gym(CybORG)環境のカスタムバージョンを開発する。
我々は、ノード、エッジ、グローバル機能を処理するために、グラフ注意ネットワーク(GAT)アーキテクチャを使用し、その出力を強化学習におけるポリシー勾配手法と互換性に適応させる。
我々は,シミュレーション中に予期せぬ接続が発生した場合でも,低レベル指向グラフ観測を用いてGAT防御ポリシーを訓練できることを実証した。
論文 参考訳(メタデータ) (2025-01-24T18:22:37Z) - Simulation of Multi-Stage Attack and Defense Mechanisms in Smart Grids [2.0766068042442174]
電力グリッドのインフラと通信のダイナミクスを再現するシミュレーション環境を導入する。
このフレームワークは多様なリアルな攻撃データを生成し、サイバー脅威を検出し緩和するための機械学習アルゴリズムを訓練する。
また、高度な意思決定支援システムを含む、新興のセキュリティ技術を評価するための、制御された柔軟なプラットフォームも提供する。
論文 参考訳(メタデータ) (2024-12-09T07:07:17Z) - Multi-Objective Reinforcement Learning for Automated Resilient Cyber Defence [0.0]
サイバー攻撃は、軍事指揮統制ネットワーク、情報、監視、偵察(ISR)システム、民間の臨界国家インフラにセキュリティ上の脅威をもたらす。
これらの攻撃における人工知能と自律エージェントの使用は、この脅威の規模、範囲、複雑さを増大させ、それらが引き起こす破壊を後押しする。
自律サイバー防衛(ACD)エージェントは、マシンスピードとこの問題に対処するために必要なスケールで応答することで、この脅威を軽減することを目指している。
論文 参考訳(メタデータ) (2024-11-26T16:51:52Z) - Edge-Only Universal Adversarial Attacks in Distributed Learning [49.546479320670464]
本研究では,攻撃者がモデルのエッジ部分のみにアクセスした場合に,ユニバーサルな敵攻撃を発生させる可能性について検討する。
提案手法は, エッジ側の重要な特徴を活用することで, 未知のクラウド部分において, 効果的な誤予測を誘導できることを示唆する。
ImageNetの結果は、未知のクラウド部分に対する強力な攻撃伝達性を示している。
論文 参考訳(メタデータ) (2024-11-15T11:06:24Z) - Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [7.967738380932909]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
我々のアプローチは、ドメインの専門知識が強化されたPPOを使用して、各サブタスクのサブ政治を訓練することである。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Building Hybrid B-Spline And Neural Network Operators [0.0]
制御システムはサイバー物理システム(CPS)の安全性を確保するために不可欠である
本稿では,B-スプラインの帰納バイアスとデータ駆動型ニューラルネットワークを組み合わせることで,CPS行動のリアルタイム予測を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T21:54:59Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense [111.9039128130633]
我々は,防御者の地域認識とコミュニケーショングラフから行動へのマッピングを学習する模倣学習フレームワークを開発した。
学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。
論文 参考訳(メタデータ) (2023-01-23T19:35:59Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic
Segmentation [79.42338812621874]
敵のトレーニングは、敵の摂動に対するディープニューラルネットワークの堅牢性を改善することを約束している。
本研究は, 敵とクリーンの両方のサンプルに対して良好に動作可能な, 汎用的な敵の訓練手順を定式化する。
本稿では,防衛効果を高めるための動的分割対対人訓練(DDC-AT)戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T05:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。