論文の概要: Intrusion Prevention through Optimal Stopping
- arxiv url: http://arxiv.org/abs/2111.00289v1
- Date: Sat, 30 Oct 2021 17:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 04:41:00.154393
- Title: Intrusion Prevention through Optimal Stopping
- Title(参考訳): 最適停止による侵入防止
- Authors: Kim Hammar and Rolf Stadler
- Abstract要約: 強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study automated intrusion prevention using reinforcement learning.
Following a novel approach, we formulate the problem of intrusion prevention as
an (optimal) multiple stopping problem. This formulation gives us insight into
the structure of optimal policies, which we show to have threshold properties.
For most practical cases, it is not feasible to obtain an optimal defender
policy using dynamic programming. We therefore develop a reinforcement learning
approach to approximate an optimal policy. Our method for learning and
validating policies includes two systems: a simulation system where defender
policies are incrementally learned and an emulation system where statistics are
produced that drive simulation runs and where learned policies are evaluated.
We show that our approach can produce effective defender policies for a
practical IT infrastructure of limited size. Inspection of the learned policies
confirms that they exhibit threshold properties.
- Abstract(参考訳): 強化学習を用いた自動侵入防止について検討した。
新たなアプローチに従うと、侵入防止の問題を(最適)多重停止問題として定式化する。
この定式化は、しきい値特性を持つことを示す最適ポリシーの構造についての洞察を与える。
ほとんどの実例では、動的プログラミングを用いて最適なディフェンダーポリシーを得ることは不可能である。
そこで我々は,最適政策を近似する強化学習手法を開発した。
本手法は,ディフェンダーポリシを漸進的に学習するシミュレーションシステムと,シミュレーションを駆動する統計を生成するエミュレーションシステムと,学習ポリシを評価するエミュレーションシステムと,2つのシステムから構成される。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
学習方針の検査は閾値特性を示すことを確認した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Learning Security Strategies through Game Play and Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
我々は攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
最適なディフェンダー戦略を得るために,架空の自己再生アルゴリズムであるT-FPを導入する。
論文 参考訳(メタデータ) (2022-05-29T15:30:00Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Learning Intrusion Prevention Policies through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
侵入防止問題を最適停止問題として定式化する。
この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。
論文 参考訳(メタデータ) (2021-06-14T04:45:37Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。