論文の概要: Interpreting Agent Behaviors in Reinforcement-Learning-Based Cyber-Battle Simulation Platforms
- arxiv url: http://arxiv.org/abs/2506.08192v1
- Date: Mon, 09 Jun 2025 20:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.663528
- Title: Interpreting Agent Behaviors in Reinforcement-Learning-Based Cyber-Battle Simulation Platforms
- Title(参考訳): 強化学習型サイバーバスシミュレーションプラットフォームにおけるエージェント挙動の解釈
- Authors: Jared Claypoole, Steven Cheung, Ashish Gehani, Vinod Yegneswaran, Ahmad Ridley,
- Abstract要約: 我々は、CAGE Challenge 2サイバーディフェンスチャレンジに提出された2つのオープンソースの深層強化学習エージェントを分析した。
複雑な状態と行動空間を単純化することにより、エージェントの成功と失敗の解釈可能性を得ることができることを示す。
我々は、CAGEチャレンジ4が我々の懸念に対処した課題の現実性と方法について議論する。
- 参考スコア(独自算出の注目度): 5.743789620999628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze two open source deep reinforcement learning agents submitted to the CAGE Challenge 2 cyber defense challenge, where each competitor submitted an agent to defend a simulated network against each of several provided rules-based attack agents. We demonstrate that one can gain interpretability of agent successes and failures by simplifying the complex state and action spaces and by tracking important events, shedding light on the fine-grained behavior of both the defense and attack agents in each experimental scenario. By analyzing important events within an evaluation episode, we identify patterns in infiltration and clearing events that tell us how well the attacker and defender played their respective roles; for example, defenders were generally able to clear infiltrations within one or two timesteps of a host being exploited. By examining transitions in the environment's state caused by the various possible actions, we determine which actions tended to be effective and which did not, showing that certain important actions are between 40% and 99% ineffective. We examine how decoy services affect exploit success, concluding for instance that decoys block up to 94% of exploits that would directly grant privileged access to a host. Finally, we discuss the realism of the challenge and ways that the CAGE Challenge 4 has addressed some of our concerns.
- Abstract(参考訳): 我々は、CAGE Challenge 2に提出された2つのオープンソースの深層強化学習エージェントを分析し、各競合相手が、提供されたルールベースの攻撃エージェントのそれぞれに対して、シミュレーションネットワークを保護するエージェントを提出した。
複雑な状態や行動空間を単純化し,重要な事象を追尾し,各実験シナリオにおける防御剤と攻撃剤の両方のきめ細かい挙動に光を当てることにより,エージェントの成功と失敗の解釈可能性が得られることを示す。
評価エピソード内の重要な事象を分析して、攻撃者とディフェンダーがそれぞれの役割をどの程度うまく果たしたかを示す、侵入およびクリアイベントのパターンを特定する。
様々な行動によって引き起こされる環境状態の遷移を調べることで、どの行動が効果的で、どの行動が効果的でないかを判断し、ある重要な行動が40%から99%の非効率であることを示す。
デコイサービスがエクスプロイトの成功にどのように影響するかを調べ、例えば、ホストに直接権限を持ったアクセスを許可するエクスプロイトの最大94%をデコイがブロックする、という結論に達した。
最後に、挑戦の現実主義と、CAGEチャレンジ4が懸念事項のいくつかに対処した方法について論じる。
関連論文リスト
- Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Dynamics of Adversarial Attacks on Large Language Model-Based Search Engines [7.260315265550391]
検索エンジンにおけるランキング操作攻撃のダイナミクスについて検討する。
システムダイナミクスの転換点を同定し、プレイヤーが前方を向いているとき、協調が維持される可能性がより高いことを示す。
私たちの研究は、彼らの脆弱性を理解し緩和するための理論的基盤と実践的な洞察を提供します。
論文 参考訳(メタデータ) (2025-01-01T06:23:26Z) - CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems [40.91476827978885]
攻撃者は被害者の脆弱性を迅速に悪用し、特定のタスクの失敗につながる敵のポリシーを生成する。
部分観測可能性の影響を軽減するために,複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(SUB-PLAY)を提案する。
我々は,敵対的政策によるセキュリティの脅威を軽減するための3つの防衛策を評価する。
論文 参考訳(メタデータ) (2024-02-06T06:18:16Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。