論文の概要: Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense
- arxiv url: http://arxiv.org/abs/2410.17351v2
- Date: Thu, 24 Oct 2024 15:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:52:22.568449
- Title: Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense
- Title(参考訳): サイバーネットワーク防衛のための階層型マルチエージェント強化学習
- Authors: Aditya Vikram Singh, Ethan Rathbun, Emma Graham, Lisa Oakley, Simona Boboila, Alina Oprea, Peter Chin,
- Abstract要約: 本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
我々のアプローチは、ドメインの専門知識が強化されたPPOを使用して、各サブタスクのサブ政治を訓練することである。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
- 参考スコア(独自算出の注目度): 7.967738380932909
- License:
- Abstract: Recent advances in multi-agent reinforcement learning (MARL) have created opportunities to solve complex real-world tasks. Cybersecurity is a notable application area, where defending networks against sophisticated adversaries remains a challenging task typically performed by teams of security operators. In this work, we explore novel MARL strategies for building autonomous cyber network defenses that address challenges such as large policy spaces, partial observability, and stealthy, deceptive adversarial strategies. To facilitate efficient and generalized learning, we propose a hierarchical Proximal Policy Optimization (PPO) architecture that decomposes the cyber defense task into specific sub-tasks like network investigation and host recovery. Our approach involves training sub-policies for each sub-task using PPO enhanced with domain expertise. These sub-policies are then leveraged by a master defense policy that coordinates their selection to solve complex network defense tasks. Furthermore, the sub-policies can be fine-tuned and transferred with minimal cost to defend against shifts in adversarial behavior or changes in network settings. We conduct extensive experiments using CybORG Cage 4, the state-of-the-art MARL environment for cyber defense. Comparisons with multiple baselines across different adversaries show that our hierarchical learning approach achieves top performance in terms of convergence speed, episodic return, and several interpretable metrics relevant to cybersecurity, including the fraction of clean machines on the network, precision, and false positives on recoveries.
- Abstract(参考訳): マルチエージェント強化学習(MARL)の最近の進歩は、複雑な現実世界の課題を解決する機会を生み出している。
サイバーセキュリティは注目すべきアプリケーション分野であり、高度な敵に対してネットワークを守ることは、セキュリティオペレーターのチームが通常行う難しい課題である。
本研究では,大規模な政策空間,部分的可観測性,盗聴といった課題に対処する,自律型サイバーネットワーク防衛のための新たなMARL戦略について検討する。
ネットワーク調査やホストリカバリなど,サイバー防御タスクを特定のサブタスクに分解する階層的ポリシ最適化(PPO)アーキテクチャを提案する。
我々のアプローチは、ドメインの専門知識が強化されたPPOを使用して、各サブタスクのサブ政治を訓練することである。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
さらに、サブポリスは、敵の行動の変化やネットワーク設定の変化に対して防御するために、最小限のコストで微調整および転送することができる。
我々はサイバー防御のための最先端のMARL環境であるCybORG Cage 4を用いた広範な実験を行った。
異なる敵間の複数のベースラインを比較すると、我々の階層的学習アプローチは、収束速度、エピソディックリターン、およびネットワーク上のクリーンマシンの割合、精度、回復における偽陽性など、サイバーセキュリティに関連するいくつかの解釈可能な指標において、最高のパフォーマンスを達成していることがわかる。
関連論文リスト
- Entity-based Reinforcement Learning for Autonomous Cyber Defence [0.22499166814992438]
自律的なサイバー防衛の鍵となる課題は、防御エージェントが様々なネットワークトポロジや構成をまたいで一般化する能力を確保することである。
深層強化学習への標準的アプローチは、一定の大きさの観測と行動空間を期待する。
自律型サイバー防衛では、訓練対象と異なるネットワークトポロジを持つ環境に一般化するエージェントを開発することが困難になる。
論文 参考訳(メタデータ) (2024-10-23T08:04:12Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - On Autonomous Agents in a Cyber Defence Environment [0.0]
我々は,Cyber Autonomy Gym for Experimentationの一部として提示された自律型サイバー運用環境の有用性について検討する。
CAGE Challenge 2は攻撃するレッドエージェントからネットワークを守るためにブルーエージェントを必要とした。
我々は,一元的深層強化学習(DRL),階層型DRL,アンサンブル,非DRLの4種類のアルゴリズムを同定する。
論文 参考訳(メタデータ) (2023-09-14T02:09:36Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Learning Cyber Defence Tactics from Scratch with Multi-Agent
Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。
エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文 参考訳(メタデータ) (2023-08-25T14:07:50Z) - Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense [111.9039128130633]
我々は,防御者の地域認識とコミュニケーショングラフから行動へのマッピングを学習する模倣学習フレームワークを開発した。
学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。
論文 参考訳(メタデータ) (2023-01-23T19:35:59Z) - Beyond CAGE: Investigating Generalization of Learned Autonomous Network
Defense Policies [0.8785883427835897]
本研究は,CAGEチャレンジの第2版で実施された強化学習アプローチを評価する。
アンサンブルRL技術は,我々の他のモデルより優れ,競争において第2位である。
目に見えない環境では、我々のアプローチはすべて悪化し、環境の変化のタイプによって様々な劣化が生じます。
論文 参考訳(メタデータ) (2022-11-28T17:01:24Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Network Defense is Not a Game [0.0]
研究は、人工知能を人間のオペレーターがネットワークを守る能力のスケールと拡張に応用することを目指している。
我々の立場は、ネットワーク・ディフェンスは不確実でおそらく漂流するルールを持つゲームの集合として特徴づけられる。
ネットワーク防御タスクをネットワーク環境の分布として定義することを提案する。
論文 参考訳(メタデータ) (2021-04-20T21:52:51Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z) - Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic
Segmentation [79.42338812621874]
敵のトレーニングは、敵の摂動に対するディープニューラルネットワークの堅牢性を改善することを約束している。
本研究は, 敵とクリーンの両方のサンプルに対して良好に動作可能な, 汎用的な敵の訓練手順を定式化する。
本稿では,防衛効果を高めるための動的分割対対人訓練(DDC-AT)戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T05:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。