論文の概要: Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.04078v2
- Date: Tue, 11 Feb 2025 12:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 17:19:34.050422
- Title: Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning
- Title(参考訳): Mind the Gap: ドメインランダム化とメタ強化学習による一般化可能な自律浸透テストを目指して
- Authors: Shicheng Zhou, Jingju Liu, Yuliang Lu, Jiahai Yang, Yue Zhang, Jie Chen,
- Abstract要約: GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
- 参考スコア(独自算出の注目度): 15.619925926862235
- License:
- Abstract: With increasing numbers of vulnerabilities exposed on the internet, autonomous penetration testing (pentesting) has emerged as a promising research area. Reinforcement learning (RL) is a natural fit for studying this topic. However, two key challenges limit the applicability of RL-based autonomous pentesting in real-world scenarios: (a) training environment dilemma -- training agents in simulated environments is sample-efficient while ensuring their realism remains challenging; (b) poor generalization ability -- agents' policies often perform poorly when transferred to unseen scenarios, with even slight changes potentially causing significant generalization gap. To this end, we propose GAP, a generalizable autonomous pentesting framework that aims to realizes efficient policy training in realistic environments and train generalizable agents capable of drawing inferences about other cases from one instance. GAP introduces a Real-to-Sim-to-Real pipeline that (a) enables end-to-end policy learning in unknown real environments while constructing realistic simulations; (b) improves agents' generalization ability by leveraging domain randomization and meta-RL learning.Specially, we are among the first to apply domain randomization in autonomous pentesting and propose a large language model-powered domain randomization method for synthetic environment generation. We further apply meta-RL to improve agents' generalization ability in unseen environments by leveraging synthetic environments. The combination of two methods effectively bridges the generalization gap and improves agents' policy adaptation performance.Experiments are conducted on various vulnerable virtual machines, with results showing that GAP can enable policy learning in various realistic environments, achieve zero-shot policy transfer in similar environments, and realize rapid policy adaptation in dissimilar environments.
- Abstract(参考訳): インターネット上に露出する脆弱性の数の増加に伴い、自律的な浸透テスト(ペストティング)が有望な研究分野として浮上している。
強化学習(RL)は、このトピックを研究するのに自然に適しています。
しかし、2つの重要な課題は、実世界のシナリオにおけるRLベースの自律型ペンテストの適用性を制限している。
(a)訓練環境ジレンマ -- 模擬環境における訓練エージェントは、サンプル効率が良く、かつ、現実主義が困難であることを保証する。
b) 一般化能力の劣る -- エージェントのポリシーは、目に見えないシナリオに移動すると、しばしば不適切なパフォーマンスを示す。
そこで本研究では,現実的な環境下での効率的な政策訓練を実現することを目的とした,汎用可能な自律型ペンテスティングフレームワークであるGAPを提案する。
GAPがReal-to-Sim-to-Realパイプラインを導入
(a) 現実的なシミュレーションを構築しつつ、未知の現実環境におけるエンドツーエンドの政策学習を可能にする。
b) ドメインのランダム化とメタRL学習を活用してエージェントの一般化能力を向上させる。特に,自律型ペンテスティングにドメインのランダム化を適用し,大規模言語モデルを用いた合成環境生成のためのドメインのランダム化手法を提案する。
さらに, メタRLを用いて, 合成環境を活用することにより, 見えない環境におけるエージェントの一般化能力を向上させる。
2つの手法を組み合わせることで、一般化ギャップを効果的に埋め、エージェントのポリシー適応性能を向上させることができ、様々な脆弱な仮想マシン上で実験を行い、GAPが様々な現実的な環境でポリシー学習を可能にし、類似環境におけるゼロショットポリシー転送を実現し、異種環境における迅速なポリシー適応を実現することを示す。
関連論文リスト
- Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Generalization through Diversity: Improving Unsupervised Environment
Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-01-19T11:55:47Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。