論文の概要: Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security
- arxiv url: http://arxiv.org/abs/2401.10149v1
- Date: Thu, 18 Jan 2024 17:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:49:18.402563
- Title: Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security
- Title(参考訳): 海上技術サイバーセキュリティのためのマルチエージェント強化学習
- Authors: Alec Wilson, Ryan Menzies, Neela Morarji, David Foster, Marco Casassa
Mont, Esin Turkbeyler, Lisa Gralewski
- Abstract要約: 本稿では,産業用制御システムに適用可能な自律型サイバー防御の可能性を示す。
汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を導入している。
汎用海事型IPMS運用技術(OT)におけるMARLの自律型サイバー防衛意思決定への応用について検討した。
- 参考スコア(独自算出の注目度): 0.3958317527488535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates the potential for autonomous cyber defence to be
applied on industrial control systems and provides a baseline environment to
further explore Multi-Agent Reinforcement Learning's (MARL) application to this
problem domain. It introduces a simulation environment, IPMSRL, of a generic
Integrated Platform Management System (IPMS) and explores the use of MARL for
autonomous cyber defence decision-making on generic maritime based IPMS
Operational Technology (OT). OT cyber defensive actions are less mature than
they are for Enterprise IT. This is due to the relatively brittle nature of OT
infrastructure originating from the use of legacy systems, design-time
engineering assumptions, and lack of full-scale modern security controls. There
are many obstacles to be tackled across the cyber landscape due to continually
increasing cyber-attack sophistication and the limitations of traditional
IT-centric cyber defence solutions. Traditional IT controls are rarely deployed
on OT infrastructure, and where they are, some threats aren't fully addressed.
In our experiments, a shared critic implementation of Multi Agent Proximal
Policy Optimisation (MAPPO) outperformed Independent Proximal Policy
Optimisation (IPPO). MAPPO reached an optimal policy (episode outcome mean of
1) after 800K timesteps, whereas IPPO was only able to reach an episode outcome
mean of 0.966 after one million timesteps. Hyperparameter tuning greatly
improved training performance. Across one million timesteps the tuned
hyperparameters reached an optimal policy whereas the default hyperparameters
only managed to win sporadically, with most simulations resulting in a draw. We
tested a real-world constraint, attack detection alert success, and found that
when alert success probability is reduced to 0.75 or 0.9, the MARL defenders
were still able to win in over 97.5% or 99.5% of episodes, respectively.
- Abstract(参考訳): 本稿では,産業用制御システムに適用可能な自律的サイバー防衛の可能性を示し,マルチエージェント強化学習(marl)をこの問題領域に適用するためのベースライン環境を提供する。
汎用統合プラットフォーム管理システム(IPMS)のシミュレーション環境であるIMMSRLを導入し、汎用海事ベースのIPMS運用技術(OT)上での自律的なサイバー防衛決定にMARLを使用することを検討する。
OTサイバー防御アクションは、エンタープライズITよりも成熟していない。
これは、レガシーシステムの使用、設計時のエンジニアリング上の前提、そして本格的なセキュリティ制御の欠如に由来する、otインフラストラクチャの比較的不安定な性質に起因する。
サイバー攻撃の高度化と、従来のIT中心のサイバー防衛ソリューションの限界により、サイバーの状況に対処すべき障害が数多く存在する。
従来のITコントロールがOTインフラストラクチャにデプロイされることはめったにありません。
実験では,マルチエージェント・近位政策最適化 (mappo) の批判が,独立近位政策最適化 (ippo) よりも優れていた。
MAPPOは800Kの時間経過後, 最適ポリシー(エピソード結果平均値1)に到達したが, IPPOは100万の時間経過後, 0.966のエピソード結果にしか達しなかった。
ハイパーパラメータチューニングはトレーニング性能を大幅に向上させた。
調整されたハイパーパラメータは100万回にわたって最適なポリシーに達し、デフォルトのハイパーパラメータは散発的にのみ勝利し、ほとんどのシミュレーションは引き分けにつながった。
我々は現実世界の制約をテストし、攻撃検知による警告の成功を検知し、警告成功確率を0.75または0.9に下げると、MARLディフェンダーたちはそれぞれ97.5%または99.5%のエピソードで勝利することができた。
関連論文リスト
- HAL 9000: Skynet's Risk Manager [0.32985979395737774]
侵入耐性システム(ITS)は、サイバーサービス/インフラ構造に必要なコンポーネントである。
機械学習(ML)アルゴリズムを適用する新たな機会が現れた。
ITSは、以前の攻撃や既知の脆弱性から学習することで、侵入耐性を増強することができる。
論文 参考訳(メタデータ) (2023-11-15T23:36:14Z) - Moving Target Defense based Secured Network Slicing System in the O-RAN Architecture [12.360792257414458]
人工知能(AI)と機械学習(ML)のセキュリティ脅威は、オープン無線アクセスネットワーク(O-RAN)のメリットを脅かすこともある。
本稿では,各スライスに対して予め定義されたVNFの最適個数を推定するための新しい手法を提案する。
また、O-RANアーキテクチャにおける動的サービス入出力制御と電力最小化のためのセキュアなAI/ML手法についても検討する。
論文 参考訳(メタデータ) (2023-09-23T18:21:33Z) - CyberForce: A Federated Reinforcement Learning Framework for Malware
Mitigation [6.495840475254741]
CyberForceは、フェデレーションと強化学習(FRL)を組み合わせて、ゼロデイ攻撃を緩和するための適切なMTDテクニックを学ぶフレームワークである。
実験の結果、CyberForceは既存のRLベースの集中型アプローチよりも高速に攻撃を緩和するMTD技術を学んだ。
エージェント学習プロセスで使用される異なる集約アルゴリズムは、CyberForceに悪意のある攻撃に対する顕著な堅牢性を提供する。
論文 参考訳(メタデータ) (2023-08-11T07:25:12Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Model-predictive control and reinforcement learning in multi-energy
system case studies [0.2810625954925815]
線形モデル予測制御(LMPC)に対するオブジェクト指向・非政治多強化学習(RL)アプローチを提案する。
TD3) RL エージェントは, LMPC ベンチマーク (101.5%) にマッチし, 性能を上回る可能性が示唆された。
より複雑なMESシステム構成では、RLエージェントの性能は一般に低い(94.6%)が、現実のLMPCよりも優れている(88.9%)。
論文 参考訳(メタデータ) (2021-04-20T06:51:50Z) - Constraints Satisfiability Driven Reinforcement Learning for Autonomous
Cyber Defense [7.321728608775741]
強化学習(RL)の防御政策の最適化と検証を目的とした新しいハイブリッド自律エージェントアーキテクチャを紹介します。
我々は、安全かつ効果的な行動に向けてRL決定を操るために、制約検証(SMT(Satisfiability modulo theory))を用いる。
シミュレーションCPS環境における提案手法の評価は,エージェントが最適方針を迅速に学習し,99%のケースで多種多様な攻撃戦略を破ることを示す。
論文 参考訳(メタデータ) (2021-04-19T01:08:30Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。