論文の概要: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine
- arxiv url: http://arxiv.org/abs/2405.15908v1
- Date: Fri, 24 May 2024 20:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.861222
- Title: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine
- Title(参考訳): Reward Machineを用いた強化学習に基づく知識インフォーム自動貫入テスト
- Authors: Yuanliang Li, Hanzheng Dai, Jun Yan,
- Abstract要約: DRLRM-PTと呼ばれる知識情報を用いたAutoPTフレームワークを提案する。
我々は、PTポリシーをトレーニングするためのガイドラインとして、ドメイン知識を符号化するために報酬機(RM)を使用します。
より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示す。
- 参考スコア(独自算出の注目度): 2.087814874079289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.
- Abstract(参考訳): 強化学習(RL)に基づく自動浸透試験(AutoPT)は,情報システムにおける脆弱性識別の効率向上を実証している。
しかし、RLベースのPTはサンプリング効率の低さ、複雑な報酬仕様、限定的な解釈可能性など、いくつかの課題に直面している。
これらの課題に対処するために,報酬機(RM)を利用して,PTポリシーをトレーニングするためのガイドラインとしてドメイン知識を符号化する,DRLRM-PTと呼ばれる知識インフォームドAutoPTフレームワークを提案する。
本研究では,PTケーススタディとして側方運動に着目し,RMによる部分的に観察可能なマルコフ決定プロセス(POMDP)として定式化する。
側方運動のためのMITRE ATT\&CK知識ベースに基づく2つのRMを設計する。
POMDPを解き、PTポリシーを最適化するために、RM(DQRM)を用いた深層Q-ラーニングアルゴリズムを用いる。
実験の結果,DQRMエージェントは,知識を組み込まないエージェントに比べてPTのトレーニング効率が高いことがわかった。
さらに、より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示した。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Remember and Forget Experience Replay for Multi-Agent Reinforcement
Learning [3.06414751922655]
マルチエージェント強化学習(MARL)におけるRefreed and Forget for Experience Replay(ReF-ER)アルゴリズムの拡張について述べる。
ReF-ERはOpenAI Gymから複雑な流体の流れまで、連続的な制御を行うための技術アルゴリズムの状況よりも優れていた。
ReF-ER MARLのポリシーと値関数に1つのフィードフォワードニューラルネットワークを用いることで、複雑なニューラルネットワークアーキテクチャに依存する技術アルゴリズムの状態を上回ります。
論文 参考訳(メタデータ) (2022-03-24T19:59:43Z) - Decentralized Graph-Based Multi-Agent Reinforcement Learning Using
Reward Machines [5.34590273802424]
報酬処理装置を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。
本稿では,各エージェントに局所的なポリシーを付与する分散グラフに基づく強化学習アルゴリズムを提案する。
提案したDGRMアルゴリズムの有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つのケーススタディにより評価された。
論文 参考訳(メタデータ) (2021-09-30T21:41:55Z) - Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-09T12:46:30Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。