Fugu-MT 論文翻訳(概要): Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine

論文の概要: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine

arxiv url: http://arxiv.org/abs/2405.15908v1
Date: Fri, 24 May 2024 20:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 02:10:19.861222
Title: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine
Title（参考訳）: Reward Machineを用いた強化学習に基づく知識インフォーム自動貫入テスト
Authors: Yuanliang Li, Hanzheng Dai, Jun Yan,
Abstract要約: DRLRM-PTと呼ばれる知識情報を用いたAutoPTフレームワークを提案する。我々は、PTポリシーをトレーニングするためのガイドラインとして、ドメイン知識を符号化するために報酬機(RM)を使用します。より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示す。
参考スコア（独自算出の注目度）: 2.087814874079289
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.
Abstract（参考訳）: 強化学習(RL)に基づく自動浸透試験(AutoPT)は,情報システムにおける脆弱性識別の効率向上を実証している。しかし、RLベースのPTはサンプリング効率の低さ、複雑な報酬仕様、限定的な解釈可能性など、いくつかの課題に直面している。これらの課題に対処するために,報酬機(RM)を利用して,PTポリシーをトレーニングするためのガイドラインとしてドメイン知識を符号化する,DRLRM-PTと呼ばれる知識インフォームドAutoPTフレームワークを提案する。本研究では,PTケーススタディとして側方運動に着目し,RMによる部分的に観察可能なマルコフ決定プロセス(POMDP)として定式化する。側方運動のためのMITRE ATT\&CK知識ベースに基づく2つのRMを設計する。 POMDPを解き、PTポリシーを最適化するために、RM(DQRM)を用いた深層Q-ラーニングアルゴリズムを用いる。実験の結果,DQRMエージェントは,知識を組み込まないエージェントに比べてPTのトレーニング効率が高いことがわかった。さらに、より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示した。

関連論文リスト

Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。 ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文参考訳（メタデータ） (2025-01-14T05:56:26Z)
Reward Machine Inference for Robotic Manipulation [1.6135226672466307]
Reward Machines (RM) は、RLが拡張された時間的地平線上でポリシーをトレーニングする能力を向上する。本稿では,ロボット操作タスクの視覚的実演から直接RMを学習するための新しいLfD手法を提案する。提案手法を視覚に基づく操作タスクに適用し,推論されたRMがタスク構造を正確に把握し,RLエージェントが最適なポリシーを効果的に学習できることを示す。
論文参考訳（メタデータ） (2024-12-13T12:32:53Z)
Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文参考訳（メタデータ） (2024-12-02T21:20:02Z)
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。 PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。 PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文参考訳（メタデータ） (2024-10-10T17:31:23Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
Learning Robust Reward Machines from Noisy Labels [46.18428376996514]
PROB-IRMは、雑音のある実行トレースから強化学習(RL)エージェントのための堅牢な報酬機(RM)を学習するアプローチである。 ProB-IRMは雑音の痕跡からRMを学習し、それらを利用してRLエージェントを訓練し、そのタスクをうまく解決できることを示す。
論文参考訳（メタデータ） (2024-08-27T08:41:42Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。 PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文参考訳（メタデータ） (2022-12-09T10:21:56Z)
Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文参考訳（メタデータ） (2022-10-17T16:06:06Z)
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning [3.06414751922655]
マルチエージェント強化学習(MARL)におけるRefreed and Forget for Experience Replay(ReF-ER)アルゴリズムの拡張について述べる。 ReF-ERはOpenAI Gymから複雑な流体の流れまで、連続的な制御を行うための技術アルゴリズムの状況よりも優れていた。 ReF-ER MARLのポリシーと値関数に1つのフィードフォワードニューラルネットワークを用いることで、複雑なニューラルネットワークアーキテクチャに依存する技術アルゴリズムの状態を上回ります。
論文参考訳（メタデータ） (2022-03-24T19:59:43Z)
Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。 RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文参考訳（メタデータ） (2020-11-09T12:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。