論文の概要: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.04078v1
- Date: Thu, 05 Dec 2024 11:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:18.354756
- Title: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning
- Title(参考訳): ドメインランダム化とメタ強化学習による汎用的自律浸透試験に向けて
- Authors: Shicheng Zhou, Jingju Liu, Yuliang Lu, Jiahai Yang, Yue Zhang, Jie Chen,
- Abstract要約: 本稿では,GAP(Generalizable Autonomous Pentesting)フレームワークを提案する。
GAPでは、ドメインのランダム化とメタRL学習という、2つの重要な方法を備えたReal-to-Sim-to-Realパイプラインを導入している。
その結果, (a) 未知の環境における政策学習が可能であり, (b) 類似環境におけるゼロショット政策伝達を実現でき, (c) 異種環境における迅速な政策適応を実現することができることがわかった。
- 参考スコア(独自算出の注目度): 15.619925926862235
- License:
- Abstract: With increasing numbers of vulnerabilities exposed on the internet, autonomous penetration testing (pentesting) has emerged as an emerging research area, while reinforcement learning (RL) is a natural fit for studying autonomous pentesting. Previous research in RL-based autonomous pentesting mainly focused on enhancing agents' learning efficacy within abstract simulated training environments. They overlooked the applicability and generalization requirements of deploying agents' policies in real-world environments that differ substantially from their training settings. In contrast, for the first time, we shift focus to the pentesting agents' ability to generalize across unseen real environments. For this purpose, we propose a Generalizable Autonomous Pentesting framework (namely GAP) for training agents capable of drawing inferences from one to another -- a key requirement for the broad application of autonomous pentesting and a hallmark of human intelligence. GAP introduces a Real-to-Sim-to-Real pipeline with two key methods: domain randomization and meta-RL learning. Specifically, we are among the first to apply domain randomization in autonomous pentesting and propose a large language model-powered domain randomization method for synthetic environment generation. We further apply meta-RL to improve the agents' generalization ability in unseen environments by leveraging the synthetic environments. The combination of these two methods can effectively bridge the generalization gap and improve policy adaptation performance. Experiments are conducted on various vulnerable virtual machines, with results showing that GAP can (a) enable policy learning in unknown real environments, (b) achieve zero-shot policy transfer in similar environments, and (c) realize rapid policy adaptation in dissimilar environments.
- Abstract(参考訳): インターネット上に露出する脆弱性の数の増加に伴い、自律的侵入テスト(ペンテスティング)が新たな研究領域として浮上し、強化学習(RL)は自律的ペンテスティングの研究に自然に適している。
RLをベースとした自律型ペンテスティングのこれまでの研究は、主に抽象的な模擬訓練環境におけるエージェントの学習効率の向上に焦点を当てていた。
彼らは、エージェントのポリシーをトレーニング設定と大きく異なる実環境にデプロイする適用性と一般化要件を見落としていた。
対照的に、私たちは初めて、見えない現実の環境にまたがるペンテスティングエージェントの一般化能力に焦点を移した。
本研究の目的は,自律型ペンテストの広範な適用と人間の知能の目印となる,相互に推論を描画できる訓練エージェントのための汎用型自律型ペンテストフレームワーク(GAP)を提案することである。
GAPでは、ドメインのランダム化とメタRL学習という、2つの重要な方法を備えたReal-to-Sim-to-Realパイプラインを導入している。
具体的には、自律型ペンテストにドメインランダム化を適用し、大規模言語モデルを用いた合成環境生成のためのドメインランダム化手法を提案する。
さらに, メタRLを用いて, 合成環境を活用することにより, 未確認環境におけるエージェントの一般化能力を向上させる。
これら2つの手法を組み合わせることで、一般化ギャップを効果的に橋渡しし、ポリシー適応性能を向上させることができる。
さまざまな脆弱な仮想マシン上で実験を行い、GAPが可能であることを示す結果を得た。
(a)未知の環境における政策学習を可能にする。
(b)同様の環境でゼロショットポリシーの転送を実現し、
(c)異種環境での迅速な政策適応を実現する。
関連論文リスト
- Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Generalization through Diversity: Improving Unsupervised Environment
Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-01-19T11:55:47Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。