論文の概要: Scalable Learning of Intrusion Responses through Recursive Decomposition
- arxiv url: http://arxiv.org/abs/2309.03292v2
- Date: Fri, 15 Sep 2023 08:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:36:32.173194
- Title: Scalable Learning of Intrusion Responses through Recursive Decomposition
- Title(参考訳): 再帰分解による侵入応答のスケーラブル学習
- Authors: Kim Hammar and Rolf Stadler
- Abstract要約: 本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study automated intrusion response for an IT infrastructure and formulate
the interaction between an attacker and a defender as a partially observed
stochastic game. To solve the game we follow an approach where attack and
defense strategies co-evolve through reinforcement learning and self-play
toward an equilibrium. Solutions proposed in previous work prove the
feasibility of this approach for small infrastructures but do not scale to
realistic scenarios due to the exponential growth in computational complexity
with the infrastructure size. We address this problem by introducing a method
that recursively decomposes the game into subgames which can be solved in
parallel. Applying optimal stopping theory we show that the best response
strategies in these subgames exhibit threshold structures, which allows us to
compute them efficiently. To solve the decomposed game we introduce an
algorithm called Decompositional Fictitious Self-Play (DFSP), which learns Nash
equilibria through stochastic approximation. We evaluate the learned strategies
in an emulation environment where real intrusions and response actions can be
executed. The results show that the learned strategies approximate an
equilibrium and that DFSP significantly outperforms a state-of-the-art
algorithm for a realistic infrastructure configuration.
- Abstract(参考訳): 本稿では,ITインフラにおける自動侵入応答について検討し,攻撃者と防御者の相互作用を部分的に観察された確率ゲームとして定式化する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃と防衛戦略が共進化するアプローチに従う。
以前の研究で提案されたソリューションは、このアプローチが小さなインフラストラクチャで実現可能であることを証明しているが、インフラストラクチャサイズによる計算複雑性の指数関数的な増加のため、現実的なシナリオにはスケールしない。
本稿では,ゲームを並列に解けるサブゲームに再帰的に分解する手法を導入することで,この問題に対処する。
最適停止理論を適用することで,これらのサブゲームにおける最善の応答戦略が閾値構造を示し,効率的に計算できることを示す。
この分解ゲームを解決するために,確率近似を用いてナッシュ平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを導入する。
実際の侵入行動と応答行動の実行が可能なエミュレーション環境で学習戦略を評価する。
以上の結果から,dfspは平衡を近似し,現実的インフラ構成の最先端アルゴリズムを有意に上回ることがわかった。
関連論文リスト
- Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games [13.33996350474556]
非対称情報ゲーム(AISG)は多くの複雑な社会技術システムで発生する。
本稿では,AISGにおける汎用情報構造に基づくオンライン学習手法であるConjectural Online Learning (COL)を提案する。
論文 参考訳(メタデータ) (2024-02-29T01:07:29Z) - Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning Near-Optimal Intrusion Responses Against Dynamic Attackers [0.0]
自動侵入応答について検討し,攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
準最適ディフェンダー戦略を得るために,近似を用いてナッシュリリアを学習する架空のセルフプレイアルゴリズムを開発した。
このアプローチは、実用的なITインフラストラクチャのための効果的なディフェンダー戦略を生み出すことができる、と私たちは主張する。
論文 参考訳(メタデータ) (2023-01-11T16:36:24Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning Security Strategies through Game Play and Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
我々は攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
最適なディフェンダー戦略を得るために,架空の自己再生アルゴリズムであるT-FPを導入する。
論文 参考訳(メタデータ) (2022-05-29T15:30:00Z) - Mind Your Solver! On Adversarial Attack and Defense for Combinatorial
Optimization [111.78035414744045]
我々は,最適解法に対する敵攻撃と防御のメカニズムの開発を主導する。
本稿では, グラフ構造を改良し, 解法の堅牢性を高めるための, 単純かつ効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-12-28T15:10:15Z) - Learning Generative Deception Strategies in Combinatorial Masking Games [27.2744631811653]
詐欺の1つの方法は、システムがどのように構成されているかに関する情報を隠蔽したり、マスキングしたりすることである。
本稿では,攻撃者側がマスクする属性のサブセットを選択するのに対して,攻撃者は攻撃を行うエクスプロイトを選択することで応答する,結果として生じるディフェンダー・アタックラー相互作用のゲーム理論モデルを提案する。
両プレイヤーの戦略をニューラルネットワークとして表現することにより,そのようなゲームを概ね解くための,新しい高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-23T20:42:44Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。