論文の概要: Entity-based Reinforcement Learning for Autonomous Cyber Defence
- arxiv url: http://arxiv.org/abs/2410.17647v1
- Date: Wed, 23 Oct 2024 08:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:11.848016
- Title: Entity-based Reinforcement Learning for Autonomous Cyber Defence
- Title(参考訳): 自律型サイバー防衛のためのエンティティベース強化学習
- Authors: Isaac Symes Thompson, Alberto Caron, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 自律的なサイバー防衛の鍵となる課題は、防御エージェントが様々なネットワークトポロジや構成をまたいで一般化する能力を確保することである。
深層強化学習への標準的アプローチは、一定の大きさの観測と行動空間を期待する。
自律型サイバー防衛では、訓練対象と異なるネットワークトポロジを持つ環境に一般化するエージェントを開発することが困難になる。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License:
- Abstract: A significant challenge for autonomous cyber defence is ensuring a defensive agent's ability to generalise across diverse network topologies and configurations. This capability is necessary for agents to remain effective when deployed in dynamically changing environments, such as an enterprise network where devices may frequently join and leave. Standard approaches to deep reinforcement learning, where policies are parameterised using a fixed-input multi-layer perceptron (MLP) expect fixed-size observation and action spaces. In autonomous cyber defence, this makes it hard to develop agents that generalise to environments with network topologies different from those trained on, as the number of nodes affects the natural size of the observation and action spaces. To overcome this limitation, we reframe the problem of autonomous network defence using entity-based reinforcement learning, where the observation and action space of an agent are decomposed into a collection of discrete entities. This framework enables the use of policy parameterisations specialised in compositional generalisation. Namely, we train a Transformer-based policy on the Yawning Titan cyber-security simulation environment and test its generalisation capabilities across various network topologies. We demonstrate that this approach significantly outperforms an MLP-based policy on fixed networks, and has the ability for zero-shot generalisation to networks of a different size to those seen in training. These findings highlight the potential for entity-based reinforcement learning to advance the field of autonomous cyber defence by providing more generalisable policies capable of handling variations in real-world network environments.
- Abstract(参考訳): 自律的なサイバー防衛において重要な課題は、防御エージェントが様々なネットワークトポロジや構成をまたいで一般化する能力を確保することである。
この機能は、デバイスが頻繁に参加して離脱するエンタープライズネットワークなど、動的に変化する環境にデプロイされた時に、エージェントが効果的に留まる必要がある。
固定入力多層パーセプトロン(MLP)を用いてポリシーをパラメータ化する深層強化学習への標準的アプローチは、固定サイズ観測とアクション空間を期待する。
自律型サイバー防衛では、ノードの数が観測空間や行動空間の自然サイズに影響を与えるため、ネットワークトポロジが異なる環境に一般化するエージェントの開発が困難になる。
この制限を克服するために、エージェントの観察と行動空間を独立したエンティティの集合に分解するエンティティベースの強化学習を用いて、自律的なネットワーク防御の問題を再構築する。
このフレームワークは、構成一般化に特化したポリシーパラメータ化の使用を可能にする。
すなわち、Yawning Titanのサイバーセキュリティシミュレーション環境上でTransformerベースのポリシーをトレーニングし、その一般化能力を様々なネットワークトポロジでテストする。
提案手法は固定ネットワーク上でのMLPベースのポリシーよりも大幅に優れており,訓練対象と異なる大きさのネットワークに対してゼロショットの一般化が可能であることを実証する。
これらの知見は、現実のネットワーク環境の変動に対処可能な、より汎用的なポリシーを提供することによって、自律的なサイバー防衛分野を前進させるエンティティベースの強化学習の可能性を強調している。
関連論文リスト
- Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [7.967738380932909]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
我々のアプローチは、ドメインの専門知識が強化されたPPOを使用して、各サブタスクのサブ政治を訓練することである。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Building Hybrid B-Spline And Neural Network Operators [0.0]
制御システムはサイバー物理システム(CPS)の安全性を確保するために不可欠である
本稿では,B-スプラインの帰納バイアスとデータ駆動型ニューラルネットワークを組み合わせることで,CPS行動のリアルタイム予測を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T21:54:59Z) - Generative AI for Secure Physical Layer Communications: A Survey [80.0638227807621]
Generative Artificial Intelligence(GAI)は、AIイノベーションの最前線に立ち、多様なコンテンツを生成するための急速な進歩と非並行的な能力を示す。
本稿では,通信ネットワークの物理層におけるセキュリティ向上におけるGAIの様々な応用について,広範な調査を行う。
私たちは、物理的レイヤセキュリティの課題に対処する上で、GAIの役割を掘り下げ、通信の機密性、認証、可用性、レジリエンス、整合性に重点を置いています。
論文 参考訳(メタデータ) (2024-02-21T06:22:41Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - Out of the Cage: How Stochastic Parrots Win in Cyber Security
Environments [0.5735035463793008]
大規模言語モデル(LLM)は様々な領域で広く普及している。
本稿では,サイバーセキュリティネットワーク環境におけるエージェントとして,事前学習したLLMの新たな応用について紹介する。
本稿では,2つの強化学習環境における攻撃エージェントとして,事前学習したLLMを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:11:27Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense [111.9039128130633]
我々は,防御者の地域認識とコミュニケーショングラフから行動へのマッピングを学習する模倣学習フレームワークを開発した。
学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。
論文 参考訳(メタデータ) (2023-01-23T19:35:59Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Autonomous Attack Mitigation for Industrial Control Systems [25.894883701063055]
サイバー攻撃からコンピュータネットワークを守るには、警告や脅威情報に対するタイムリーな対応が必要である。
本稿では,大規模産業制御ネットワークにおける自律応答と回復に対する深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T18:08:06Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。