論文の概要: Adversarial Reinforcement Learning for Offensive and Defensive Agents in a Simulated Zero-Sum Network Environment
- arxiv url: http://arxiv.org/abs/2510.05157v1
- Date: Fri, 03 Oct 2025 05:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.865631
- Title: Adversarial Reinforcement Learning for Offensive and Defensive Agents in a Simulated Zero-Sum Network Environment
- Title(参考訳): 模擬ゼロサムネットワーク環境における攻撃・防御エージェントの逆強化学習
- Authors: Abrar Shahid, Ibteeker Mahir Ishum, AKM Tahmidul Haque, M Sohel Rahman, A. B. M. Alim Al Islam,
- Abstract要約: 本稿では,カスタムOpenAI Gym環境によるネットワークセキュリティにおける敵強化学習の制御に関する研究について述べる。
環境は、バックグラウンドトラフィックノイズ、プログレッシブ・エクスプロイト・メカニクス、IPベースの回避戦術、ハニーポットトラップ、レート制限防衛など、現実的なセキュリティトレードオフを捉えている。
- 参考スコア(独自算出の注目度): 3.572219661521267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a controlled study of adversarial reinforcement learning in network security through a custom OpenAI Gym environment that models brute-force attacks and reactive defenses on multi-port services. The environment captures realistic security trade-offs including background traffic noise, progressive exploitation mechanics, IP-based evasion tactics, honeypot traps, and multi-level rate-limiting defenses. Competing attacker and defender agents are trained using Deep Q-Networks (DQN) within a zero-sum reward framework, where successful exploits yield large terminal rewards while incremental actions incur small costs. Through systematic evaluation across multiple configurations (varying trap detection probabilities, exploitation difficulty thresholds, and training regimens), the results demonstrate that defender observability and trap effectiveness create substantial barriers to successful attacks. The experiments reveal that reward shaping and careful training scheduling are critical for learning stability in this adversarial setting. The defender consistently maintains strategic advantage across 50,000+ training episodes, with performance gains amplifying when exposed to complex defensive strategies including adaptive IP blocking and port-specific controls. Complete implementation details, reproducible hyperparameter configurations, and architectural guidelines are provided to support future research in adversarial RL for cybersecurity. The zero-sum formulation and realistic operational constraints make this environment suitable for studying autonomous defense systems, attacker-defender co-evolution, and transfer learning to real-world network security scenarios.
- Abstract(参考訳): 本稿では,マルチポートサービス上でのブルートフォース攻撃とリアクティブディフェンスをモデル化した,独自のOpenAI Gym環境を通じて,ネットワークセキュリティにおける敵の強化学習の制御について述べる。
環境は、バックグラウンドトラフィックノイズ、プログレッシブ・エクスプロイト・メカニクス、IPベースの回避戦術、ハニーポットトラップ、マルチレベルレート制限防衛など、現実的なセキュリティトレードオフを捉えている。
競合する攻撃者とディフェンダーエージェントは、ゼロサム報酬フレームワーク内でDeep Q-Networks(DQN)を使用してトレーニングされる。
複数の構成(様々なトラップ検出確率、悪用困難しきい値、訓練規則)を体系的に評価することにより、ディフェンダーの可観測性とトラップの有効性が攻撃の成功に重大な障壁を生じさせることを示した。
実験の結果, 報酬形成と注意深いトレーニングスケジューリングが, この対向的な環境下での安定性の学習に不可欠であることが判明した。
ディフェンダーは、適応的なIPブロッキングやポート固有のコントロールを含む複雑な防御戦略に晒されると、パフォーマンスが向上する5万以上のトレーニングエピソードにわたって、戦略的優位性を維持している。
完全な実装の詳細、再現可能なハイパーパラメータ構成、アーキテクチャガイドラインは、サイバーセキュリティのための敵RLにおける将来の研究を支援するために提供されている。
ゼロサムの定式化と現実的な運用上の制約は、この環境を自律防衛システムの研究、アタッカーとディフェンダーの共進化、現実世界のネットワークセキュリティシナリオへの学習に適している。
関連論文リスト
- Beyond Rewards in Reinforcement Learning for Cyber Defence [11.066125432647466]
報酬関数構造が学習および政策行動特性に及ぼす影響を評価する。
我々は、多種多様なスパースと密集した報酬関数、2つの確立されたサイバージム、ネットワークサイズ、およびポリシー勾配と値に基づくRLアルゴリズムを使用する。
以上の結果から,目標に整合して頻繁に遭遇する場合の疎度な報酬は,トレーニングの信頼性の向上とリスクの低いより効果的なサイバー防御エージェントの両面に特有であることがわかった。
論文 参考訳(メタデータ) (2026-02-04T17:55:23Z) - Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense [9.927281246704604]
本稿では,サイバー防御タスクをネットワーク調査やホストリカバリといった特定のサブタスクに分解する階層的PPOアーキテクチャを提案する。
当社のアプローチでは,サイバーセキュリティ分野の専門知識が強化されたPPOを用いて,各サブタスクに対するサブ政治のトレーニングを行う。
これらのサブ政治は、複雑なネットワーク防御タスクを解決するためにそれらの選択を調整するマスターディフェンスポリシーによって活用される。
論文 参考訳(メタデータ) (2024-10-22T18:35:05Z) - Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations [7.361316528368866]
本稿では,ランサムウェア攻撃のシミュレーションに強化学習(RL)を利用する新しい手法を提案する。
実世界のネットワークを模倣するシミュレーション環境でRLエージェントを訓練することにより、効果的な攻撃戦略を迅速に学習することができる。
152ホストのサンプルネットワークの実験結果から,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2024-06-25T14:16:40Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Learning Cyber Defence Tactics from Scratch with Multi-Agent
Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。
エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文 参考訳(メタデータ) (2023-08-25T14:07:50Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。