論文の概要: Reward Shaping for Happier Autonomous Cyber Security Agents
- arxiv url: http://arxiv.org/abs/2310.13565v1
- Date: Fri, 20 Oct 2023 15:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:25:23.428531
- Title: Reward Shaping for Happier Autonomous Cyber Security Agents
- Title(参考訳): 自律型サイバーセキュリティエージェントのリワードシェイピング
- Authors: Elizabeth Bates, Vasilios Mavroudis, Chris Hicks
- Abstract要約: 最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。
本研究は,この課題の訓練において,エージェントに提供される報酬信号の影響について検討する。
- 参考スコア(独自算出の注目度): 0.276240219662896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning models become more capable, they have exhibited increased
potential in solving complex tasks. One of the most promising directions uses
deep reinforcement learning to train autonomous agents in computer network
defense tasks. This work studies the impact of the reward signal that is
provided to the agents when training for this task. Due to the nature of
cybersecurity tasks, the reward signal is typically 1) in the form of penalties
(e.g., when a compromise occurs), and 2) distributed sparsely across each
defense episode. Such reward characteristics are atypical of classic
reinforcement learning tasks where the agent is regularly rewarded for progress
(cf. to getting occasionally penalized for failures). We investigate reward
shaping techniques that could bridge this gap so as to enable agents to train
more sample-efficiently and potentially converge to a better performance. We
first show that deep reinforcement learning algorithms are sensitive to the
magnitude of the penalties and their relative size. Then, we combine penalties
with positive external rewards and study their effect compared to penalty-only
training. Finally, we evaluate intrinsic curiosity as an internal positive
reward mechanism and discuss why it might not be as advantageous for high-level
network monitoring tasks.
- Abstract(参考訳): 機械学習モデルがより有能になるにつれて、複雑なタスクを解く可能性が高まっている。
最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。
本研究は,課題の訓練においてエージェントに提供される報酬信号の影響について検討する。
サイバーセキュリティタスクの性質のため、報奨信号は典型的には
1) 罰(例えば、妥協が発生した場合)の形式で、及び
2)各防衛エピソードにばらばらに分布する。
このような報酬特性は、エージェントが定期的に進歩に対して報奨を受ける古典的な強化学習タスクの典型である(cf. 時に失敗に対して罰を受けること)。
エージェントがより効率的にサンプルを訓練し、よりよいパフォーマンスに収束できるように、このギャップを橋渡しできる報酬形成手法を調査した。
まず,深層強化学習アルゴリズムは,ペナルティの大きさとその相対的大きさに敏感であることを示す。
そして,罰則を正の外部報酬と組み合わせ,その効果をペナルティのみの訓練と比較した。
最後に,本質的好奇心を内部的な肯定的報酬機構として評価し,高レベルネットワーク監視タスクに有利でない理由について論じる。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。