論文の概要: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games
- arxiv url: http://arxiv.org/abs/2403.17674v1
- Date: Tue, 26 Mar 2024 13:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:27:36.573401
- Title: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games
- Title(参考訳): 自分次第:RLエージェントでLLMをメンタリングして、サイバーセキュリティゲームのマスターになる
- Authors: Yikuan Yan, Yaolun Zhang, Keman Huang,
- Abstract要約: SecurityBotは、サイバーセキュリティオペレーションをサポートするために、事前訓練されたRLエージェントが指導する強化学習エージェントである。
動作ガイドラインを生成するプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを削減するアクションモジュールがサポートされている。
CybORG の実験フレームワーク上に構築された経験から,SecurityBot は LLM や RL のスタンドアロンと比較して,大幅なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating LLM and reinforcement learning (RL) agent effectively to achieve complementary performance is critical in high stake tasks like cybersecurity operations. In this study, we introduce SecurityBot, a LLM agent mentored by pre-trained RL agents, to support cybersecurity operations. In particularly, the LLM agent is supported with a profile module to generated behavior guidelines, a memory module to accumulate local experiences, a reflection module to re-evaluate choices, and an action module to reduce action space. Additionally, it adopts the collaboration mechanism to take suggestions from pre-trained RL agents, including a cursor for dynamic suggestion taken, an aggregator for multiple mentors' suggestions ranking and a caller for proactive suggestion asking. Building on the CybORG experiment framework, our experiences show that SecurityBot demonstrates significant performance improvement compared with LLM or RL standalone, achieving the complementary performance in the cybersecurity games.
- Abstract(参考訳): LLMと強化学習(RL)エージェントを効果的に統合して相補的なパフォーマンスを達成することは、サイバーセキュリティ操作のような高利害なタスクにおいて重要である。
本研究では,事前訓練されたRLエージェントが指導するLLMエージェントであるSecurityBotを紹介し,サイバーセキュリティ運用を支援する。
特に、LLMエージェントは、生成された行動ガイドラインのためのプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを低減するアクションモジュールでサポートされている。
さらに、動的提案のカーソル、複数のメンターの提案のランク付けのためのアグリゲータ、プロアクティブな提案の問い合わせのための呼び出しなど、事前訓練されたRLエージェントから提案を受けるためのコラボレーションメカニズムも採用されている。
CybORG 実験フレームワーク上に構築した経験から,SecurityBot は LLM や RL に比べて大幅なパフォーマンス向上を示し,サイバーセキュリティゲームにおいて補完的なパフォーマンスを実現している。
関連論文リスト
- EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
本稿では,より小型のRLエージェントが,弱体化している有用なスキルを学習するのを支援するために,EnvGenを提案する。
EnvGenで訓練された小さなRLエージェントは、GPT-4エージェントを含むSOTAメソッドよりも優れており、長い水平タスクをかなり高速に学習することができる。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - On Generative Agents in Recommendation [65.52796348055281]
Agent4RecはLarge Language Models (LLM)に基づく映画レコメンデーションシミュレータである。
ユーザプロファイル、メモリ、アクションモジュールを備えたLLMを内蔵した生成エージェントは、レコメンダシステムに特化している。
Agent4Recの評価では、エージェント間のアライメントと逸脱とユーザ個人化された好みの両方を強調している。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。