論文の概要: Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation
- arxiv url: http://arxiv.org/abs/2509.20008v1
- Date: Wed, 24 Sep 2025 11:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.794123
- Title: Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation
- Title(参考訳): 部分観測可能性に基づくロバスト浸透試験の学習:系統的評価
- Authors: Raphael Simon, Pieter Libin, Wim Mees,
- Abstract要約: セキュリティ脆弱性を特定するためのサイバー攻撃のシミュレーションである侵入テストは、シーケンシャルな意思決定の問題を提示している。
部分可観測性はマルコフ決定過程に存在するマルコフ特性を無効にする。
実世界の複雑性をよりよく反映することを目的として,異なる大きさのホストネットワーク上での部分的に観測可能な浸透試験シナリオについて検討した。
- 参考スコア(独自算出の注目度): 0.28675177318965045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Penetration testing, the simulation of cyberattacks to identify security vulnerabilities, presents a sequential decision-making problem well-suited for reinforcement learning (RL) automation. Like many applications of RL to real-world problems, partial observability presents a major challenge, as it invalidates the Markov property present in Markov Decision Processes (MDPs). Partially Observable MDPs require history aggregation or belief state estimation to learn successful policies. We investigate stochastic, partially observable penetration testing scenarios over host networks of varying size, aiming to better reflect real-world complexity through more challenging and representative benchmarks. This approach leads to the development of more robust and transferable policies, which are crucial for ensuring reliable performance across diverse and unpredictable real-world environments. Using vanilla Proximal Policy Optimization (PPO) as a baseline, we compare a selection of PPO variants designed to mitigate partial observability, including frame-stacking, augmenting observations with historical information, and employing recurrent or transformer-based architectures. We conduct a systematic empirical analysis of these algorithms across different host network sizes. We find that this task greatly benefits from history aggregation. Converging three times faster than other approaches. Manual inspection of the learned policies by the algorithms reveals clear distinctions and provides insights that go beyond quantitative results.
- Abstract(参考訳): セキュリティ脆弱性を特定するためのサイバー攻撃のシミュレーションである浸透テストは、強化学習(RL)自動化に適したシーケンシャルな意思決定問題を提示している。
実世界の問題に対するRLの多くの応用と同様に、部分可観測性はマルコフ決定過程(MDP)に存在するマルコフ特性を無効にするため、大きな課題となる。
部分的に観察可能なMDPは、ポリシーを学習するために履歴集計や信念状態推定を必要とする。
様々なサイズのホストネットワーク上での確率的かつ部分的に観測可能な浸透テストシナリオについて検討し、より困難で代表的なベンチマークによって現実の複雑さをよりよく反映することを目的とした。
このアプローチは、より堅牢で転送可能なポリシの開発につながります。
バニラポリシー最適化(PPO)をベースラインとして、フレームスタッキング、歴史的情報による観測の増強、リカレントアーキテクチャやトランスフォーマーベースのアーキテクチャの活用など、部分的可観測性を軽減するために設計されたPPO変種を比較検討する。
異なるホストネットワークサイズで,これらのアルゴリズムの系統的経験分析を行う。
このタスクはヒストリアグリゲーションから大きな恩恵を受けています。
収束は他のアプローチの3倍速い。
アルゴリズムによる学習方針のマニュアル検査は、明確な区別を明らかにし、定量的な結果を超える洞察を提供する。
関連論文リスト
- ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Monitoring Methods [2.4010681808413397]
Prescriptive Process Monitoring (PresPM)は、イベントログデータに基づいたリアルタイム介入によるプロセスを最適化することに焦点を当てている。
PresPMメソッドの評価は、データセット内のすべての介入アクションに対して、基調的な結果が欠如しているため、難しい。
ProCauseはシーケンシャルモデルと非シーケンシャルモデルの両方をサポートするジェネレーティブアプローチである。
論文 参考訳(メタデータ) (2025-08-31T10:54:43Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Efficient falsification approach for autonomous vehicle validation using
a parameter optimisation technique based on reinforcement learning [6.198523595657983]
自律走行車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。
交通参加者とダイナミックワールドの行動の不確実性は、先進的な自律システムにおいて反応を引き起こす。
本稿では,システム・アンダー・テストを評価するための効率的なファルシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T02:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。