論文の概要: Beyond Rewards in Reinforcement Learning for Cyber Defence
- arxiv url: http://arxiv.org/abs/2602.04809v1
- Date: Wed, 04 Feb 2026 17:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.667865
- Title: Beyond Rewards in Reinforcement Learning for Cyber Defence
- Title(参考訳): サイバー防衛のための強化学習におけるリワードを超えて
- Authors: Elizabeth Bates, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 報酬関数構造が学習および政策行動特性に及ぼす影響を評価する。
我々は、多種多様なスパースと密集した報酬関数、2つの確立されたサイバージム、ネットワークサイズ、およびポリシー勾配と値に基づくRLアルゴリズムを使用する。
以上の結果から,目標に整合して頻繁に遭遇する場合の疎度な報酬は,トレーニングの信頼性の向上とリスクの低いより効果的なサイバー防御エージェントの両面に特有であることがわかった。
- 参考スコア(独自算出の注目度): 11.066125432647466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen an explosion of interest in autonomous cyber defence agents trained to defend computer networks using deep reinforcement learning. These agents are typically trained in cyber gym environments using dense, highly engineered reward functions which combine many penalties and incentives for a range of (un)desirable states and costly actions. Dense rewards help alleviate the challenge of exploring complex environments but risk biasing agents towards suboptimal and potentially riskier solutions, a critical issue in complex cyber environments. We thoroughly evaluate the impact of reward function structure on learning and policy behavioural characteristics using a variety of sparse and dense reward functions, two well-established cyber gyms, a range of network sizes, and both policy gradient and value-based RL algorithms. Our evaluation is enabled by a novel ground truth evaluation approach which allows directly comparing between different reward functions, illuminating the nuanced inter-relationships between rewards, action space and the risks of suboptimal policies in cyber environments. Our results show that sparse rewards, provided they are goal aligned and can be encountered frequently, uniquely offer both enhanced training reliability and more effective cyber defence agents with lower-risk policies. Surprisingly, sparse rewards can also yield policies that are better aligned with cyber defender goals and make sparing use of costly defensive actions without explicit reward-based numerical penalties.
- Abstract(参考訳): 近年、深層強化学習を用いてコンピュータネットワークを守るために訓練された自律型サイバー防衛エージェントへの関心が爆発的に高まっている。
これらのエージェントは、典型的には、様々な(望ましくない)状態とコストのかかる行動に対する多くの罰とインセンティブを組み合わせた、密集した高度にエンジニアリングされた報酬関数を使用して、サイバージム環境で訓練される。
危険な報酬は、複雑な環境を探索する際の課題を軽減するのに役立ちますが、リスクバイアスエージェントは、複雑なサイバー環境において重要な問題である、最適で潜在的にリスクの高いソリューションに向かっているのです。
報奨関数構造が学習および政策行動特性に与える影響を,多種多様な疎密な報酬関数,確立された2つのサイバージム,ネットワークサイズ,およびポリシ勾配と値に基づくRLアルゴリズムを用いて,徹底的に評価した。
提案手法は,報奨と行動空間,およびサイバー環境における準最適政策のリスクの相互関係を照らし合わせて,異なる報奨関数を直接比較できる新しい基礎的真理評価手法によって実現されている。
以上の結果から,目標に整合して頻繁に遭遇する場合の疎度な報酬は,トレーニングの信頼性の向上とリスクの低いより効果的なサイバー防御エージェントの両面に特有であることがわかった。
意外なことに、まばらな報酬は、サイバーディフェンダーの目標と整合し、明確な報酬に基づく数値的な罰則を使わずに、コストのかかる防衛措置をうまく活用できる。
関連論文リスト
- Adversarial Reinforcement Learning for Offensive and Defensive Agents in a Simulated Zero-Sum Network Environment [3.572219661521267]
本稿では,カスタムOpenAI Gym環境によるネットワークセキュリティにおける敵強化学習の制御に関する研究について述べる。
環境は、バックグラウンドトラフィックノイズ、プログレッシブ・エクスプロイト・メカニクス、IPベースの回避戦術、ハニーポットトラップ、レート制限防衛など、現実的なセキュリティトレードオフを捉えている。
論文 参考訳(メタデータ) (2025-10-03T05:53:51Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Less is more? Rewards in RL for Cyber Defence [0.24578723416255752]
我々は、スパース報酬機能がより効果的なサイバー防衛エージェントの訓練を可能にするかどうかを評価する。
以上の結果から,スパルス報酬,特に未妥協のネットワーク状態に対する肯定的な強化は,より効果的なサイバー防衛エージェントの訓練を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T07:53:39Z) - Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [9.927281246704604]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
当社のアプローチでは,サイバーセキュリティ分野の専門知識が強化されたPPOを用いて,各サブタスクに対するサブ政治のトレーニングを行う。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。