論文の概要: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games
- arxiv url: http://arxiv.org/abs/2403.17674v1
- Date: Tue, 26 Mar 2024 13:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:27:36.573401
- Title: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games
- Title(参考訳): 自分次第:RLエージェントでLLMをメンタリングして、サイバーセキュリティゲームのマスターになる
- Authors: Yikuan Yan, Yaolun Zhang, Keman Huang,
- Abstract要約: SecurityBotは、サイバーセキュリティオペレーションをサポートするために、事前訓練されたRLエージェントが指導する強化学習エージェントである。
動作ガイドラインを生成するプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを削減するアクションモジュールがサポートされている。
CybORG の実験フレームワーク上に構築された経験から,SecurityBot は LLM や RL のスタンドアロンと比較して,大幅なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating LLM and reinforcement learning (RL) agent effectively to achieve complementary performance is critical in high stake tasks like cybersecurity operations. In this study, we introduce SecurityBot, a LLM agent mentored by pre-trained RL agents, to support cybersecurity operations. In particularly, the LLM agent is supported with a profile module to generated behavior guidelines, a memory module to accumulate local experiences, a reflection module to re-evaluate choices, and an action module to reduce action space. Additionally, it adopts the collaboration mechanism to take suggestions from pre-trained RL agents, including a cursor for dynamic suggestion taken, an aggregator for multiple mentors' suggestions ranking and a caller for proactive suggestion asking. Building on the CybORG experiment framework, our experiences show that SecurityBot demonstrates significant performance improvement compared with LLM or RL standalone, achieving the complementary performance in the cybersecurity games.
- Abstract(参考訳): LLMと強化学習(RL)エージェントを効果的に統合して相補的なパフォーマンスを達成することは、サイバーセキュリティ操作のような高利害なタスクにおいて重要である。
本研究では,事前訓練されたRLエージェントが指導するLLMエージェントであるSecurityBotを紹介し,サイバーセキュリティ運用を支援する。
特に、LLMエージェントは、生成された行動ガイドラインのためのプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを低減するアクションモジュールでサポートされている。
さらに、動的提案のカーソル、複数のメンターの提案のランク付けのためのアグリゲータ、プロアクティブな提案の問い合わせのための呼び出しなど、事前訓練されたRLエージェントから提案を受けるためのコラボレーションメカニズムも採用されている。
CybORG 実験フレームワーク上に構築した経験から,SecurityBot は LLM や RL に比べて大幅なパフォーマンス向上を示し,サイバーセキュリティゲームにおいて補完的なパフォーマンスを実現している。
関連論文リスト
- LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble [4.41983632543407]
エージェント学習のための一貫性誘導型報酬アンサンブルフレームワーク(CoREN)を提案する。
このフレームワークは、トレーニングデータセットにおけるドメイン基底の報酬を導出するために、時間的に一貫した報酬の適応的なアンサンブルを使用する。
論文 参考訳(メタデータ) (2024-11-26T06:04:10Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
このアプローチは、人間の経験と知識をこれらの洗練されたLLMに注入するために、巧妙なプロンプトの戦略的利用を必要とする。
この統合は、サービスとしての人工知能(AI)と、より容易なAIの将来のパラダイムを表している。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - Simulating Classroom Education with LLM-Empowered Agents [52.62324491261461]
SimClassは、ユーザ参加を含むマルチエージェントの教室シミュレーションフレームワークである。
代表的クラスの役割を認識し、自動授業のための新しいクラス制御機構を導入する。
我々は,LLMが従来の教室のインタラクションパターンを効果的にシミュレートし,ユーザエクスペリエンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-06-27T14:51:07Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。