論文の概要: Less is more? Rewards in RL for Cyber Defence
- arxiv url: http://arxiv.org/abs/2503.03245v1
- Date: Wed, 05 Mar 2025 07:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:47.767058
- Title: Less is more? Rewards in RL for Cyber Defence
- Title(参考訳): サイバー防衛のRLでリワード(動画あり)
- Authors: Elizabeth Bates, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 我々は、スパース報酬機能がより効果的なサイバー防衛エージェントの訓練を可能にするかどうかを評価する。
確立されたサイバージムに適応することにより,2つのスパース報酬機構を提案し,評価する。
以上の結果から,スパルス報酬,特に未妥協のネットワーク状態に対する肯定的な強化は,より効果的なサイバー防衛エージェントの訓練を可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License:
- Abstract: The last few years has seen an explosion of interest in autonomous cyber defence agents based on deep reinforcement learning. Such agents are typically trained in a cyber gym environment, also known as a cyber simulator, at least 32 of which have already been built. Most, if not all cyber gyms provide dense "scaffolded" reward functions which combine many penalties or incentives for a range of (un)desirable states and costly actions. Whilst dense rewards help alleviate the challenge of exploring complex environments, yielding seemingly effective strategies from relatively few environment steps; they are also known to bias the solutions an agent can find, potentially towards suboptimal solutions. Sparse rewards could offer preferable or more effective solutions and have been overlooked by cyber gyms to date. In this work we set out to evaluate whether sparse reward functions might enable training more effective cyber defence agents. Towards this goal we first break down several evaluation limitations in existing work by proposing a ground truth evaluation score that goes beyond the standard RL paradigm used to train and evaluate agents. By adapting a well-established cyber gym to accommodate our methodology and ground truth score, we propose and evaluate two sparse reward mechanisms and compare them with a typical dense reward. Our evaluation considers a range of network sizes, from 2 to 50 nodes, and both reactive and proactive defensive actions. Our results show that sparse rewards, particularly positive reinforcement for an uncompromised network state, enable the training of more effective cyber defence agents. Furthermore, we show that sparse rewards provide more stable training than dense rewards, and that both effectiveness and training stability are robust to a variety of cyber environment considerations.
- Abstract(参考訳): ここ数年、深層強化学習に基づく自律型サイバー防衛エージェントへの関心が爆発的に高まっている。
このようなエージェントは通常、サイバージム環境(サイバーシミュレータとしても知られる)で訓練され、そのうちの少なくとも32つは既に構築されている。
多くの場合、すべてのサイバージムが、様々な(望ましくない)州と費用のかかる行動に対する多くの罰やインセンティブを組み合わせた、密集した「詐欺」報酬機能を提供しているわけではない。
厳密な報酬は複雑な環境を探索することの難しさを軽減するのに役立ち、比較的少数の環境ステップから一見効果的な戦略をもたらす。
スパース報酬は、より好ましい、あるいはより効果的なソリューションを提供する可能性があり、これまでサイバージムで見過ごされてきた。
本研究は、より効果的なサイバー防衛エージェントの訓練を可能にするスパース報酬機能を評価することを目的としている。
この目標に向けて,エージェントの訓練および評価に使用される標準RLパラダイムを超える基礎的真理評価スコアを提案することによって,既存の作業におけるいくつかの評価限界をまず分解する。
確立されたサイバージムを我々の方法論と真実のスコアに適合させることで、2つのスパース報酬メカニズムを提案し評価し、典型的に密度の高い報酬と比較する。
評価では,2ノードから50ノードまでのネットワークサイズと,反応性および積極的な防御行動について検討した。
以上の結果から,スパルス報酬,特に未妥協のネットワーク状態に対する肯定的な強化は,より効果的なサイバー防衛エージェントの訓練を可能にすることが示唆された。
さらに、スパース報酬は、密集報酬よりも安定したトレーニングを提供し、有効性とトレーニング安定性は、様々なサイバー環境の考慮に対して堅牢であることを示す。
関連論文リスト
- Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。
政策最適化問題において,各形態の騙しをいかに実装できるかを示す。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [7.967738380932909]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
我々のアプローチは、ドメインの専門知識が強化されたPPOを使用して、各サブタスクのサブ政治を訓練することである。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Reward Shaping for Happier Autonomous Cyber Security Agents [0.276240219662896]
最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。
本研究は,この課題の訓練において,エージェントに提供される報酬信号の影響について検討する。
論文 参考訳(メタデータ) (2023-10-20T15:04:42Z) - Learning Cyber Defence Tactics from Scratch with Multi-Agent
Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。
エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文 参考訳(メタデータ) (2023-08-25T14:07:50Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。