論文の概要: Adversarial Reinforcement Learning for Offensive and Defensive Agents in a Simulated Zero-Sum Network Environment
- arxiv url: http://arxiv.org/abs/2510.05157v1
- Date: Fri, 03 Oct 2025 05:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.865631
- Title: Adversarial Reinforcement Learning for Offensive and Defensive Agents in a Simulated Zero-Sum Network Environment
- Title(参考訳): 模擬ゼロサムネットワーク環境における攻撃・防御エージェントの逆強化学習
- Authors: Abrar Shahid, Ibteeker Mahir Ishum, AKM Tahmidul Haque, M Sohel Rahman, A. B. M. Alim Al Islam,
- Abstract要約: 本稿では,カスタムOpenAI Gym環境によるネットワークセキュリティにおける敵強化学習の制御に関する研究について述べる。
環境は、バックグラウンドトラフィックノイズ、プログレッシブ・エクスプロイト・メカニクス、IPベースの回避戦術、ハニーポットトラップ、レート制限防衛など、現実的なセキュリティトレードオフを捉えている。
- 参考スコア(独自算出の注目度): 3.572219661521267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a controlled study of adversarial reinforcement learning in network security through a custom OpenAI Gym environment that models brute-force attacks and reactive defenses on multi-port services. The environment captures realistic security trade-offs including background traffic noise, progressive exploitation mechanics, IP-based evasion tactics, honeypot traps, and multi-level rate-limiting defenses. Competing attacker and defender agents are trained using Deep Q-Networks (DQN) within a zero-sum reward framework, where successful exploits yield large terminal rewards while incremental actions incur small costs. Through systematic evaluation across multiple configurations (varying trap detection probabilities, exploitation difficulty thresholds, and training regimens), the results demonstrate that defender observability and trap effectiveness create substantial barriers to successful attacks. The experiments reveal that reward shaping and careful training scheduling are critical for learning stability in this adversarial setting. The defender consistently maintains strategic advantage across 50,000+ training episodes, with performance gains amplifying when exposed to complex defensive strategies including adaptive IP blocking and port-specific controls. Complete implementation details, reproducible hyperparameter configurations, and architectural guidelines are provided to support future research in adversarial RL for cybersecurity. The zero-sum formulation and realistic operational constraints make this environment suitable for studying autonomous defense systems, attacker-defender co-evolution, and transfer learning to real-world network security scenarios.
- Abstract(参考訳): 本稿では,マルチポートサービス上でのブルートフォース攻撃とリアクティブディフェンスをモデル化した,独自のOpenAI Gym環境を通じて,ネットワークセキュリティにおける敵の強化学習の制御について述べる。
環境は、バックグラウンドトラフィックノイズ、プログレッシブ・エクスプロイト・メカニクス、IPベースの回避戦術、ハニーポットトラップ、マルチレベルレート制限防衛など、現実的なセキュリティトレードオフを捉えている。
競合する攻撃者とディフェンダーエージェントは、ゼロサム報酬フレームワーク内でDeep Q-Networks(DQN)を使用してトレーニングされる。
複数の構成(様々なトラップ検出確率、悪用困難しきい値、訓練規則)を体系的に評価することにより、ディフェンダーの可観測性とトラップの有効性が攻撃の成功に重大な障壁を生じさせることを示した。
実験の結果, 報酬形成と注意深いトレーニングスケジューリングが, この対向的な環境下での安定性の学習に不可欠であることが判明した。
ディフェンダーは、適応的なIPブロッキングやポート固有のコントロールを含む複雑な防御戦略に晒されると、パフォーマンスが向上する5万以上のトレーニングエピソードにわたって、戦略的優位性を維持している。
完全な実装の詳細、再現可能なハイパーパラメータ構成、アーキテクチャガイドラインは、サイバーセキュリティのための敵RLにおける将来の研究を支援するために提供されている。
ゼロサムの定式化と現実的な運用上の制約は、この環境を自律防衛システムの研究、アタッカーとディフェンダーの共進化、現実世界のネットワークセキュリティシナリオへの学習に適している。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [9.927281246704604]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
当社のアプローチでは,サイバーセキュリティ分野の専門知識が強化されたPPOを用いて,各サブタスクに対するサブ政治のトレーニングを行う。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations [7.361316528368866]
本稿では,ランサムウェア攻撃のシミュレーションに強化学習(RL)を利用する新しい手法を提案する。
実世界のネットワークを模倣するシミュレーション環境でRLエージェントを訓練することにより、効果的な攻撃戦略を迅速に学習することができる。
152ホストのサンプルネットワークの実験結果から,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2024-06-25T14:16:40Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Learning Cyber Defence Tactics from Scratch with Multi-Agent
Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。
エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文 参考訳(メタデータ) (2023-08-25T14:07:50Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。