Fugu-MT 論文翻訳(概要): Learning Intrusion Prevention Policies through Optimal Stopping

論文の概要: Learning Intrusion Prevention Policies through Optimal Stopping

arxiv url: http://arxiv.org/abs/2106.07160v1
Date: Mon, 14 Jun 2021 04:45:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 04:59:54.716788
Title: Learning Intrusion Prevention Policies through Optimal Stopping
Title（参考訳）: 最適停止による学習侵入防止策
Authors: Kim Hammar and Rolf Stadler
Abstract要約: 強化学習を用いた自動侵入防止について検討した。侵入防止問題を最適停止問題として定式化する。この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We study automated intrusion prevention using reinforcement learning. In a novel approach, we formulate the problem of intrusion prevention as an optimal stopping problem. This formulation allows us insight into the structure of the optimal policies, which turn out to be threshold based. Since the computation of the optimal defender policy using dynamic programming is not feasible for practical cases, we approximate the optimal policy through reinforcement learning in a simulation environment. To define the dynamics of the simulation, we emulate the target infrastructure and collect measurements. Our evaluations show that the learned policies are close to optimal and that they indeed can be expressed using thresholds.
Abstract（参考訳）: 強化学習を用いた自動侵入防止について検討した。新たなアプローチでは、侵入防止問題を最適停止問題として定式化する。この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。動的計画を用いた最適防衛政策の計算は実用上不可能であるため,シミュレーション環境における強化学習による最適政策の近似を行う。シミュレーションのダイナミクスを定義するため,対象インフラストラクチャをエミュレートし,測定値の収集を行う。評価の結果,学習方針は最適に近く,しきい値を用いて表現できることが示唆された。

関連論文リスト

Offline Policy Learning with Weight Clipping and Heaviside Composite Optimization [6.133885868970599]
オフラインポリシー学習は、歴史的データを使用して、最適なパーソナライズされた決定ルールを学ぶことを目的としています。そこで我々は,小確率のスコアをトラストするウェイトクリッピング推定器に基づくオフラインポリシー学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2026-01-17T17:35:00Z)
Beating the Winner's Curse via Inference-Aware Policy Optimization [26.01488014918074]
一般的なアプローチは、機械学習モデルをトレーニングして反現実的な結果を予測し、予測された客観的価値を最適化するポリシーを選択することである。提案手法は,政策を下流でどのように評価するかを考慮し,政策最適化を改良する,推論対応政策最適化と呼ばれる新しい戦略を提案する。
論文参考訳（メタデータ） (2025-10-20T23:28:12Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文参考訳（メタデータ） (2025-05-01T04:55:29Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文参考訳（メタデータ） (2023-06-18T15:50:57Z)
Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文参考訳（メタデータ） (2023-01-05T18:43:40Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文参考訳（メタデータ） (2021-10-30T17:03:28Z)
MPC-based Reinforcement Learning for Economic Problems with Application to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文参考訳（メタデータ） (2021-04-06T10:37:14Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。 FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文参考訳（メタデータ） (2020-02-16T05:07:17Z)
Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか? 新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文参考訳（メタデータ） (2020-01-31T01:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。