論文の概要: Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security
- arxiv url: http://arxiv.org/abs/2401.10149v1
- Date: Thu, 18 Jan 2024 17:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:49:18.402563
- Title: Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security
- Title(参考訳): 海上技術サイバーセキュリティのためのマルチエージェント強化学習
- Authors: Alec Wilson, Ryan Menzies, Neela Morarji, David Foster, Marco Casassa
Mont, Esin Turkbeyler, Lisa Gralewski
- Abstract要約: 本稿では,産業用制御システムに適用可能な自律型サイバー防御の可能性を示す。
汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を導入している。
汎用海事型IPMS運用技術(OT)におけるMARLの自律型サイバー防衛意思決定への応用について検討した。
- 参考スコア(独自算出の注目度): 0.3958317527488535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates the potential for autonomous cyber defence to be
applied on industrial control systems and provides a baseline environment to
further explore Multi-Agent Reinforcement Learning's (MARL) application to this
problem domain. It introduces a simulation environment, IPMSRL, of a generic
Integrated Platform Management System (IPMS) and explores the use of MARL for
autonomous cyber defence decision-making on generic maritime based IPMS
Operational Technology (OT). OT cyber defensive actions are less mature than
they are for Enterprise IT. This is due to the relatively brittle nature of OT
infrastructure originating from the use of legacy systems, design-time
engineering assumptions, and lack of full-scale modern security controls. There
are many obstacles to be tackled across the cyber landscape due to continually
increasing cyber-attack sophistication and the limitations of traditional
IT-centric cyber defence solutions. Traditional IT controls are rarely deployed
on OT infrastructure, and where they are, some threats aren't fully addressed.
In our experiments, a shared critic implementation of Multi Agent Proximal
Policy Optimisation (MAPPO) outperformed Independent Proximal Policy
Optimisation (IPPO). MAPPO reached an optimal policy (episode outcome mean of
1) after 800K timesteps, whereas IPPO was only able to reach an episode outcome
mean of 0.966 after one million timesteps. Hyperparameter tuning greatly
improved training performance. Across one million timesteps the tuned
hyperparameters reached an optimal policy whereas the default hyperparameters
only managed to win sporadically, with most simulations resulting in a draw. We
tested a real-world constraint, attack detection alert success, and found that
when alert success probability is reduced to 0.75 or 0.9, the MARL defenders
were still able to win in over 97.5% or 99.5% of episodes, respectively.
- Abstract(参考訳): 本稿では,産業用制御システムに適用可能な自律的サイバー防衛の可能性を示し,マルチエージェント強化学習(marl)をこの問題領域に適用するためのベースライン環境を提供する。
汎用統合プラットフォーム管理システム(IPMS)のシミュレーション環境であるIMMSRLを導入し、汎用海事ベースのIPMS運用技術(OT)上での自律的なサイバー防衛決定にMARLを使用することを検討する。
OTサイバー防御アクションは、エンタープライズITよりも成熟していない。
これは、レガシーシステムの使用、設計時のエンジニアリング上の前提、そして本格的なセキュリティ制御の欠如に由来する、otインフラストラクチャの比較的不安定な性質に起因する。
サイバー攻撃の高度化と、従来のIT中心のサイバー防衛ソリューションの限界により、サイバーの状況に対処すべき障害が数多く存在する。
従来のITコントロールがOTインフラストラクチャにデプロイされることはめったにありません。
実験では,マルチエージェント・近位政策最適化 (mappo) の批判が,独立近位政策最適化 (ippo) よりも優れていた。
MAPPOは800Kの時間経過後, 最適ポリシー(エピソード結果平均値1)に到達したが, IPPOは100万の時間経過後, 0.966のエピソード結果にしか達しなかった。
ハイパーパラメータチューニングはトレーニング性能を大幅に向上させた。
調整されたハイパーパラメータは100万回にわたって最適なポリシーに達し、デフォルトのハイパーパラメータは散発的にのみ勝利し、ほとんどのシミュレーションは引き分けにつながった。
我々は現実世界の制約をテストし、攻撃検知による警告の成功を検知し、警告成功確率を0.75または0.9に下げると、MARLディフェンダーたちはそれぞれ97.5%または99.5%のエピソードで勝利することができた。
関連論文リスト
- Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning [0.0]
本稿では,IPMSRLを用いることで,偽陽性警告や警告遅延のさらなるダイナミクスを含むリアリズムを向上する。
最高の成績をもたらす訓練方法は,カリキュラム学習とアクションマスキングの併用である。
論文 参考訳(メタデータ) (2024-09-13T16:46:55Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW [52.280742520586756]
ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。
単純な電子回路はこれらのCPSを安価にすることができるが、計算、メモリ、センサーの資源を著しく制限する。
本稿では,ナノドロンの限られた超低消費電力資源にのみ依存する,オンデバイスファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T13:11:36Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Moving Target Defense based Secured Network Slicing System in the O-RAN Architecture [12.360792257414458]
人工知能(AI)と機械学習(ML)のセキュリティ脅威は、オープン無線アクセスネットワーク(O-RAN)のメリットを脅かすこともある。
本稿では,各スライスに対して予め定義されたVNFの最適個数を推定するための新しい手法を提案する。
また、O-RANアーキテクチャにおける動的サービス入出力制御と電力最小化のためのセキュアなAI/ML手法についても検討する。
論文 参考訳(メタデータ) (2023-09-23T18:21:33Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Model-predictive control and reinforcement learning in multi-energy
system case studies [0.2810625954925815]
線形モデル予測制御(LMPC)に対するオブジェクト指向・非政治多強化学習(RL)アプローチを提案する。
TD3) RL エージェントは, LMPC ベンチマーク (101.5%) にマッチし, 性能を上回る可能性が示唆された。
より複雑なMESシステム構成では、RLエージェントの性能は一般に低い(94.6%)が、現実のLMPCよりも優れている(88.9%)。
論文 参考訳(メタデータ) (2021-04-20T06:51:50Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。