論文の概要: Evolutionary Defense: Advancing Moving Target Strategies with Bio-Inspired Reinforcement Learning to Secure Misconfigured Software Applications
- arxiv url: http://arxiv.org/abs/2504.09465v1
- Date: Sun, 13 Apr 2025 07:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:17.600715
- Title: Evolutionary Defense: Advancing Moving Target Strategies with Bio-Inspired Reinforcement Learning to Secure Misconfigured Software Applications
- Title(参考訳): 進化的防御 - バイオインスパイアされた強化学習によるターゲット戦略の移行と、設定ミスのソフトウェアアプリケーションのセキュア化
- Authors: Niloofar Heidarikohol, Shuvalaxmi Dass, Akbar Siami Namin,
- Abstract要約: ソフトウェアシステムにおける不適切な設定は、しばしば脆弱性を発生させ、それらを悪用するために開放する。
この課題に対処するために移動目標防衛(MTD)を適用することができる。
前報では,RL-MTDと呼ばれるシングルプレイヤーMTDゲームモデルの概念実証を開発した。
本稿では,バイオインスパイアされた2つの探索アルゴリズムを活用することにより,探索空間最適化の問題に対処する。
- 参考スコア(独自算出の注目度): 0.40964539027092906
- License:
- Abstract: Improper configurations in software systems often create vulnerabilities, leaving them open to exploitation. Static architectures exacerbate this issue by allowing misconfigurations to persist, providing adversaries with opportunities to exploit them during attacks. To address this challenge, a dynamic proactive defense strategy known as Moving Target Defense (MTD) can be applied. MTD continually changes the attack surface of the system, thwarting potential threats. In the previous research, we developed a proof of concept for a single-player MTD game model called RL-MTD, which utilizes Reinforcement Learning (RL) to generate dynamic secure configurations. While the model exhibited satisfactory performance in generating secure configurations, it grappled with an unoptimized and sparse search space, leading to performance issues. To tackle this obstacle, this paper addresses the search space optimization problem by leveraging two bio-inspired search algorithms: Genetic Algorithm (GA) and Particle Swarm Optimization (PSO). Additionally, we extend our base RL-MTD model by integrating these algorithms, resulting in the creation of PSO-RL andGA-RL. We compare the performance of three models: base RL-MTD, GA-RL, and PSO-RL, across four misconfigured SUTs in terms of generating the most secure configuration. Results show that the optimal search space derived from both GA-RL and PSO-RL significantly enhances the performance of the base RL-MTD model compared to the version without optimized search space. While both GA-RL and PSO-RL demonstrate effective search capabilities, PSO-RL slightly outperforms GA-RL for most SUTs. Overall, both algorithms excel in seeking an optimal search space which in turn improves the performance of the model in generating optimal secure configuration.
- Abstract(参考訳): ソフトウェアシステムにおける不適切な設定は、しばしば脆弱性を発生させ、それらを悪用するために開放する。
静的アーキテクチャは、不正な設定を継続させることでこの問題を悪化させ、攻撃時に敵に悪用する機会を与える。
この課題に対処するために、移動目標防衛(MTD)として知られる動的プロアクティブ防衛戦略を適用することができる。
MTDはシステムの攻撃面を継続的に変更し、潜在的な脅威を防ぐ。
本研究では,RL-MTD(Reinforcement Learning, RL)を用いて動的にセキュアな構成を生成する単一プレイヤーMTDゲームモデルのコンセプト実証を開発した。
このモデルはセキュアな構成を生成するのに満足できる性能を示したが、最適化されていないスパースな検索スペースに悩まされ、性能上の問題を引き起こした。
本稿では, 遺伝的アルゴリズム (GA) と粒子群最適化 (PSO) の2つのバイオインスパイアされた探索アルゴリズムを活用することで, 探索空間の最適化問題に対処する。
さらに、これらのアルゴリズムを統合することでベースRL-MTDモデルを拡張し、PSO-RLとGA-RLを作成する。
本稿では, ベースRL-MTD, GA-RL, PSO-RLの3つのモデルの性能を比較し, 最もセキュアな構成を生成するための4つの誤り構成SUTを比較した。
その結果, GA-RLとPSO-RLの両方から得られる最適探索空間は, 最適化された検索空間を持たないバージョンと比較して, ベースRL-MTDモデルの性能を著しく向上させることがわかった。
GA-RL と PSO-RL はともに有効検索能力を示したが、ほとんどの SUT では PSO-RL は GA-RL よりも若干優れていた。
全体として、どちらのアルゴリズムも最適な探索空間を求めることに優れており、それによってモデルの性能が向上し、最適なセキュアな構成を生成することができる。
関連論文リスト
- Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。
本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文 参考訳(メタデータ) (2024-12-18T20:25:04Z) - ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。