論文の概要: Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.10563v1
- Date: Fri, 13 Sep 2024 16:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:09:36.344773
- Title: Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning
- Title(参考訳): 強化学習を用いた運用技術サイバーセキュリティにおける行動マスキングとカリキュラム学習技術の適用によるデータ効率の向上と全体的なパフォーマンス向上
- Authors: Alec Wilson, William Holmes, Ryan Menzies, Kez Smithson Whitehead,
- Abstract要約: 本稿では,IPMSRLを用いることで,偽陽性警告や警告遅延のさらなるダイナミクスを含むリアリズムを向上する。
最高の成績をもたらす訓練方法は,カリキュラム学習とアクションマスキングの併用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In previous work, the IPMSRL environment (Integrated Platform Management System Reinforcement Learning environment) was developed with the aim of training defensive RL agents in a simulator representing a subset of an IPMS on a maritime vessel under a cyber-attack. This paper extends the use of IPMSRL to enhance realism including the additional dynamics of false positive alerts and alert delay. Applying curriculum learning, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.569. Applying action masking, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.743. Importantly, this level of performance was reached in less than 1 million timesteps, which was far more data efficient than vanilla PPO which reached a lower level of performance after 2.5 million timesteps. The training method which resulted in the highest level of performance observed in this paper was a combination of the application of curriculum learning and action masking, with a mean episode reward of 0.137. This paper also introduces a basic hardcoded defensive agent encoding a representation of cyber security best practice, which provides context to the episode reward mean figures reached by the RL agents. The hardcoded agent managed an episode reward mean of -1.895. This paper therefore shows that applications of curriculum learning and action masking, both independently and in tandem, present a way to overcome the complex real-world dynamics that are present in operational technology cyber security threat remediation.
- Abstract(参考訳): IPMSRL環境 (Integrated Platform Management System Reinforcement Learning Environment) は, サイバー攻撃を受けた船舶におけるIPMSのサブセットを表すシミュレータにおいて, 防御的RLエージェントの訓練を目的として開発された環境である。
本稿では,IPMSRLを用いることにより,偽陽性警告や警告遅延のさらなるダイナミクスを含むリアリズムを向上する。
カリキュラムの学習を最も難しい環境で実施すると、エピソード報酬は-2.791から0.569へと増加する。
アクションマスキングを最も難しい環境で適用すると、エピソード報酬は-2.791から-0.743へと増加する。
重要なことに、このレベルのパフォーマンスは100万時間未満で到達し、250万時間後に低いレベルのパフォーマンスに達したバニラPPOよりもはるかにデータ効率が高かった。
本研究は,カリキュラム学習とアクションマスキングを併用し,平均エピソード報酬0.137。
また,サイバーセキュリティのベストプラクティスを表現した基本的ハードコード防御エージェントを導入し,RLエージェントが到達したエピソード報酬平均値にコンテキストを提供する。
ハードコードされたエージェントは、エピソード報酬の平均値-1.895を管理した。
そこで本研究では,カリキュラム学習と行動マスキングの応用が,運用技術におけるサイバーセキュリティの脅威修復における複雑な現実のダイナミクスを克服する手段として,独立に,かつ,同時に両面から採用されていることを示す。
関連論文リスト
- Dual Action Policy for Robust Sim-to-Real Reinforcement Learning [3.463779355513079]
デュアルアクションポリシー(DAP)は、強化学習のシミュ---リアルギャップに固有の動的ミスマッチに対処する新しいアプローチである。
1つはシミュレーションにおけるタスク報酬の最大化のためのもので、もう1つは報酬調整によるドメイン適応のためのものである。
実験により,DAPが実間ギャップを埋めることの有効性が示され,シミュレーションにおける課題のベースラインを上回り,不確実性推定を取り入れることでさらなる改善が達成された。
論文 参考訳(メタデータ) (2024-10-16T05:22:06Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Multi-Agent Reinforcement Learning for Maritime Operational Technology
Cyber Security [0.3958317527488535]
本稿では,産業用制御システムに適用可能な自律型サイバー防御の可能性を示す。
汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を導入している。
汎用海事型IPMS運用技術(OT)におけるMARLの自律型サイバー防衛意思決定への応用について検討した。
論文 参考訳(メタデータ) (2024-01-18T17:22:22Z) - MIND: Multi-Task Incremental Network Distillation [45.74830585715129]
本研究では,リプレイフリーソリューションの性能向上を目的としたパラメータ分離手法 MIND を提案する。
以上の結果から,MINDの優れた性能は,クラス増分学習やドメイン増分学習によってもたらされる課題に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-12-05T17:46:52Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。