論文の概要: Adaptive Network Security Policies via Belief Aggregation and Rollout
- arxiv url: http://arxiv.org/abs/2507.15163v2
- Date: Thu, 07 Aug 2025 23:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.473599
- Title: Adaptive Network Security Policies via Belief Aggregation and Rollout
- Title(参考訳): ネットワークのアグリゲーションとロールアウトによる適応的セキュリティポリシー
- Authors: Kim Hammar, Yuchao Li, Tansu Alpcan, Emil C. Lupu, Dimitri Bertsekas,
- Abstract要約: 本稿では、スケーラブルで理論的保証を提供し、変更に迅速に適応するセキュリティポリシーの計算方法を提案する。
システムのモデルやシミュレータを仮定し、粒子フィルタリングによる信念推定、集約によるオフラインポリシー計算、ロールアウトによるオンラインポリシー適応の3つのコンポーネントで構成される。
本研究では,アグリゲーションの近似誤差を分析し,ロールアウトが特定の条件下でのポリシー変更に効率的に適応することを示す。
- 参考スコア(独自算出の注目度): 6.671981851649331
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evolving security vulnerabilities and shifting operational conditions require frequent updates to network security policies. These updates include adjustments to incident response procedures and modifications to access controls, among others. Reinforcement learning methods have been proposed for automating such policy adaptations, but most of the methods in the research literature lack performance guarantees and adapt slowly to changes. In this paper, we address these limitations and present a method for computing security policies that is scalable, offers theoretical guarantees, and adapts quickly to changes. It assumes a model or simulator of the system and comprises three components: belief estimation through particle filtering, offline policy computation through aggregation, and online policy adaptation through rollout. Central to our method is a new feature-based aggregation technique, which improves scalability and flexibility. We analyze the approximation error of aggregation and show that rollout efficiently adapts policies to changes under certain conditions. Simulations and testbed results demonstrate that our method outperforms state-of-the-art methods on several benchmarks, including CAGE-2.
- Abstract(参考訳): セキュリティ脆弱性の進化と運用条件のシフトには,ネットワークセキュリティポリシの頻繁な更新が必要になる。
これらのアップデートには、インシデント対応手順の調整やアクセス制御の変更などが含まれる。
このような政策適応を自動化するために強化学習法が提案されているが、研究文献のほとんどの方法は性能保証が欠如しており、変化にゆっくりと適応している。
本稿では、これらの制約に対処し、スケーラブルで理論的保証を提供し、変更に迅速に適応するセキュリティポリシーの計算方法を提案する。
システムのモデルやシミュレータを仮定し、粒子フィルタリングによる信念推定、集約によるオフラインポリシー計算、ロールアウトによるオンラインポリシー適応の3つのコンポーネントで構成される。
当社の手法の中心は,スケーラビリティと柔軟性を向上する新機能ベースのアグリゲーション技術である。
本研究では,アグリゲーションの近似誤差を分析し,ロールアウトが特定の条件下でのポリシー変更に効率的に適応することを示す。
シミュレーションとテストベッドの結果から,本手法はCAGE-2を含むいくつかのベンチマークにおいて,最先端の手法よりも優れていることが示された。
関連論文リスト
- Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文 参考訳(メタデータ) (2025-04-23T16:54:35Z) - SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement [33.60500554561509]
効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。
信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。
本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T02:53:53Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning [16.7091722884524]
安全制約下での最適分散最小化行動ポリシーを提案する。
本手法は, 実質的分散低減と安全制約満足度を両立させる唯一の方法である。
論文 参考訳(メタデータ) (2024-10-08T03:10:55Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Reinforcement learning based adaptive metaheuristics [5.254093731341154]
本稿では,最先端強化学習アルゴリズムに基づく連続領域メタヒューリスティックスにおけるパラメータ適応のための汎用フレームワークを提案する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategies)とDE(differial Evolution)の2つのアルゴリズムにおけるこのフレームワークの適用性を示す。
論文 参考訳(メタデータ) (2022-06-24T12:01:49Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。