Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning for Maritime Operational Technology Cyber Security

論文の概要: Multi-Agent Reinforcement Learning for Maritime Operational Technology Cyber Security

arxiv url: http://arxiv.org/abs/2401.10149v1
Date: Thu, 18 Jan 2024 17:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:49:18.402563
Title: Multi-Agent Reinforcement Learning for Maritime Operational Technology Cyber Security
Title（参考訳）: 海上技術サイバーセキュリティのためのマルチエージェント強化学習
Authors: Alec Wilson, Ryan Menzies, Neela Morarji, David Foster, Marco Casassa Mont, Esin Turkbeyler, Lisa Gralewski
Abstract要約: 本稿では,産業用制御システムに適用可能な自律型サイバー防御の可能性を示す。汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を導入している。汎用海事型IPMS運用技術(OT)におけるMARLの自律型サイバー防衛意思決定への応用について検討した。
参考スコア（独自算出の注目度）: 0.3958317527488535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper demonstrates the potential for autonomous cyber defence to be applied on industrial control systems and provides a baseline environment to further explore Multi-Agent Reinforcement Learning's (MARL) application to this problem domain. It introduces a simulation environment, IPMSRL, of a generic Integrated Platform Management System (IPMS) and explores the use of MARL for autonomous cyber defence decision-making on generic maritime based IPMS Operational Technology (OT). OT cyber defensive actions are less mature than they are for Enterprise IT. This is due to the relatively brittle nature of OT infrastructure originating from the use of legacy systems, design-time engineering assumptions, and lack of full-scale modern security controls. There are many obstacles to be tackled across the cyber landscape due to continually increasing cyber-attack sophistication and the limitations of traditional IT-centric cyber defence solutions. Traditional IT controls are rarely deployed on OT infrastructure, and where they are, some threats aren't fully addressed. In our experiments, a shared critic implementation of Multi Agent Proximal Policy Optimisation (MAPPO) outperformed Independent Proximal Policy Optimisation (IPPO). MAPPO reached an optimal policy (episode outcome mean of 1) after 800K timesteps, whereas IPPO was only able to reach an episode outcome mean of 0.966 after one million timesteps. Hyperparameter tuning greatly improved training performance. Across one million timesteps the tuned hyperparameters reached an optimal policy whereas the default hyperparameters only managed to win sporadically, with most simulations resulting in a draw. We tested a real-world constraint, attack detection alert success, and found that when alert success probability is reduced to 0.75 or 0.9, the MARL defenders were still able to win in over 97.5% or 99.5% of episodes, respectively.
Abstract（参考訳）: 本稿では,産業用制御システムに適用可能な自律的サイバー防衛の可能性を示し,マルチエージェント強化学習(marl)をこの問題領域に適用するためのベースライン環境を提供する。汎用統合プラットフォーム管理システム(IPMS)のシミュレーション環境であるIMMSRLを導入し、汎用海事ベースのIPMS運用技術(OT)上での自律的なサイバー防衛決定にMARLを使用することを検討する。 OTサイバー防御アクションは、エンタープライズITよりも成熟していない。これは、レガシーシステムの使用、設計時のエンジニアリング上の前提、そして本格的なセキュリティ制御の欠如に由来する、otインフラストラクチャの比較的不安定な性質に起因する。サイバー攻撃の高度化と、従来のIT中心のサイバー防衛ソリューションの限界により、サイバーの状況に対処すべき障害が数多く存在する。従来のITコントロールがOTインフラストラクチャにデプロイされることはめったにありません。実験では,マルチエージェント・近位政策最適化 (mappo) の批判が,独立近位政策最適化 (ippo) よりも優れていた。 MAPPOは800Kの時間経過後, 最適ポリシー(エピソード結果平均値1)に到達したが, IPPOは100万の時間経過後, 0.966のエピソード結果にしか達しなかった。ハイパーパラメータチューニングはトレーニング性能を大幅に向上させた。調整されたハイパーパラメータは100万回にわたって最適なポリシーに達し、デフォルトのハイパーパラメータは散発的にのみ勝利し、ほとんどのシミュレーションは引き分けにつながった。我々は現実世界の制約をテストし、攻撃検知による警告の成功を検知し、警告成功確率を0.75または0.9に下げると、MARLディフェンダーたちはそれぞれ97.5%または99.5%のエピソードで勝利することができた。

関連論文リスト

Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文参考訳（メタデータ） (2025-08-01T13:55:39Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
Leveraging Trustworthy AI for Automotive Security in Multi-Domain Operations: Towards a Responsive Human-AI Multi-Domain Task Force for Cyber Social Security [0.7842667530489607]
MDO(Multi-Domain Operations)は、複雑でシナジスティックな脅威に対するドメイン間防御を強調する。スマートシティやコネクテッド・オートモービルズ(CAV)といった市民のインフラが主要なターゲットとして浮上している。デュアルユースアセットとして、CAVはマルチサーフェス脅威(MST)、特にAdversarial Machine Learning(AML)に対して脆弱である。決定木に基づくアンサンブルモデル(RF)、グラディエントブースティング(GB)、エクストリームグラディエントブースティング(XGB)のキーハイパーパラメータがブラックボックスAML攻撃に要する時間にどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-07-23T11:46:52Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning [0.0]
本稿では,IPMSRLを用いることで,偽陽性警告や警告遅延のさらなるダイナミクスを含むリアリズムを向上する。最高の成績をもたらす訓練方法は,カリキュラム学習とアクションマスキングの併用である。
論文参考訳（メタデータ） (2024-09-13T16:46:55Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW [52.280742520586756]
ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。単純な電子回路はこれらのCPSを安価にすることができるが、計算、メモリ、センサーの資源を著しく制限する。本稿では,ナノドロンの限られた超低消費電力資源にのみ依存する,オンデバイスファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-08-06T13:11:36Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Moving Target Defense based Secured Network Slicing System in the O-RAN Architecture [12.360792257414458]
人工知能(AI)と機械学習(ML)のセキュリティ脅威は、オープン無線アクセスネットワーク(O-RAN)のメリットを脅かすこともある。本稿では,各スライスに対して予め定義されたVNFの最適個数を推定するための新しい手法を提案する。また、O-RANアーキテクチャにおける動的サービス入出力制御と電力最小化のためのセキュアなAI/ML手法についても検討する。
論文参考訳（メタデータ） (2023-09-23T18:21:33Z)
Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文参考訳（メタデータ） (2021-11-23T23:42:16Z)
Model-predictive control and reinforcement learning in multi-energy system case studies [0.2810625954925815]
線形モデル予測制御(LMPC)に対するオブジェクト指向・非政治多強化学習(RL)アプローチを提案する。 TD3) RL エージェントは, LMPC ベンチマーク (101.5%) にマッチし, 性能を上回る可能性が示唆された。より複雑なMESシステム構成では、RLエージェントの性能は一般に低い(94.6%)が、現実のLMPCよりも優れている(88.9%)。
論文参考訳（メタデータ） (2021-04-20T06:51:50Z)
Ultra-Reliable Indoor Millimeter Wave Communications using Multiple Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。 mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文参考訳（メタデータ） (2021-03-31T19:15:49Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。