論文の概要: A System for Interactive Examination of Learned Security Policies
- arxiv url: http://arxiv.org/abs/2204.01126v1
- Date: Sun, 3 Apr 2022 17:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 06:24:32.757297
- Title: A System for Interactive Examination of Learned Security Policies
- Title(参考訳): 学習したセキュリティポリシーの対話的検証システム
- Authors: Kim Hammar and Rolf Stadler
- Abstract要約: 本稿では,学習したセキュリティポリシーを相互に検証するシステムを提案する。
これにより、ユーザーはマルコフ決定プロセスのエピソードを制御された方法で横切ることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a system for interactive examination of learned security policies.
It allows a user to traverse episodes of Markov decision processes in a
controlled manner and to track the actions triggered by security policies.
Similar to a software debugger, a user can continue or or halt an episode at
any time step and inspect parameters and probability distributions of interest.
The system enables insight into the structure of a given policy and in the
behavior of a policy in edge cases. We demonstrate the system with a network
intrusion use case. We examine the evolution of an IT infrastructure's state
and the actions prescribed by security policies while an attack occurs. The
policies for the demonstration have been obtained through a reinforcement
learning approach that includes a simulation system where policies are
incrementally learned and an emulation system that produces statistics that
drive the simulation runs.
- Abstract(参考訳): 本稿では,学習したセキュリティポリシーを相互に検証するシステムを提案する。
ユーザはMarkov決定プロセスのエピソードを制御された方法でトラバースし、セキュリティポリシによって引き起こされるアクションを追跡することができる。
ソフトウェアデバッガと同様に、ユーザは任意のタイミングでエピソードを継続または停止し、パラメータや関心の確率分布を検査することができる。
このシステムは、所定のポリシーの構造と、エッジケースにおけるポリシーの振る舞いに関する洞察を可能にする。
本稿では,ネットワーク侵入ユースケースを用いてシステムを示す。
攻撃中、ITインフラの状態の進化とセキュリティポリシーによって規定される行動について検討する。
実証のための政策は、段階的にポリシーを学習するシミュレーションシステムと、シミュレーションを駆動する統計を生成するエミュレーションシステムとを含む強化学習アプローチによって得られた。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-30T17:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。