Fugu-MT 論文翻訳(概要): Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games

論文の概要: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games

arxiv url: http://arxiv.org/abs/2403.17674v1
Date: Tue, 26 Mar 2024 13:02:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 15:27:36.573401
Title: Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games
Title（参考訳）: 自分次第:RLエージェントでLLMをメンタリングして、サイバーセキュリティゲームのマスターになる
Authors: Yikuan Yan, Yaolun Zhang, Keman Huang,
Abstract要約: SecurityBotは、サイバーセキュリティオペレーションをサポートするために、事前訓練されたRLエージェントが指導する強化学習エージェントである。動作ガイドラインを生成するプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを削減するアクションモジュールがサポートされている。 CybORG の実験フレームワーク上に構築された経験から,SecurityBot は LLM や RL のスタンドアロンと比較して,大幅なパフォーマンス向上を実現しています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating LLM and reinforcement learning (RL) agent effectively to achieve complementary performance is critical in high stake tasks like cybersecurity operations. In this study, we introduce SecurityBot, a LLM agent mentored by pre-trained RL agents, to support cybersecurity operations. In particularly, the LLM agent is supported with a profile module to generated behavior guidelines, a memory module to accumulate local experiences, a reflection module to re-evaluate choices, and an action module to reduce action space. Additionally, it adopts the collaboration mechanism to take suggestions from pre-trained RL agents, including a cursor for dynamic suggestion taken, an aggregator for multiple mentors' suggestions ranking and a caller for proactive suggestion asking. Building on the CybORG experiment framework, our experiences show that SecurityBot demonstrates significant performance improvement compared with LLM or RL standalone, achieving the complementary performance in the cybersecurity games.
Abstract（参考訳）: LLMと強化学習(RL)エージェントを効果的に統合して相補的なパフォーマンスを達成することは、サイバーセキュリティ操作のような高利害なタスクにおいて重要である。本研究では,事前訓練されたRLエージェントが指導するLLMエージェントであるSecurityBotを紹介し,サイバーセキュリティ運用を支援する。特に、LLMエージェントは、生成された行動ガイドラインのためのプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを低減するアクションモジュールでサポートされている。さらに、動的提案のカーソル、複数のメンターの提案のランク付けのためのアグリゲータ、プロアクティブな提案の問い合わせのための呼び出しなど、事前訓練されたRLエージェントから提案を受けるためのコラボレーションメカニズムも採用されている。 CybORG 実験フレームワーク上に構築した経験から,SecurityBot は LLM や RL に比べて大幅なパフォーマンス向上を示し,サイバーセキュリティゲームにおいて補完的なパフォーマンスを実現している。

関連論文リスト

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。 LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文参考訳（メタデータ） (2025-04-13T05:31:37Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
Multi-Agent Collaboration in Incident Response with Large Language Models [0.0]
インシデント対応(IR)はサイバーセキュリティの重要な側面であり、サイバー攻撃を効果的に対処するために、迅速な意思決定と協調的な努力が必要である。大きな言語モデル(LLM)をインテリジェントエージェントとして活用することは、IRシナリオにおけるコラボレーションと効率を高めるための新しいアプローチを提供する。本稿では,Backdoors & Breaches フレームワークを用いた LLM ベースのマルチエージェントコラボレーションの適用について検討する。
論文参考訳（メタデータ） (2024-12-01T03:12:26Z)
LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble [4.41983632543407]
エージェント学習のための一貫性誘導型報酬アンサンブルフレームワーク(CoREN)を提案する。このフレームワークは、トレーニングデータセットにおけるドメイン基底の報酬を導出するために、時間的に一貫した報酬の適応的なアンサンブルを使用する。
論文参考訳（メタデータ） (2024-11-26T06:04:10Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-09-30T08:41:39Z)
Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。このアプローチは、人間の経験と知識をこれらの洗練されたLLMに注入するために、巧妙なプロンプトの戦略的利用を必要とする。この統合は、サービスとしての人工知能(AI)と、より容易なAIの将来のパラダイムを表している。
論文参考訳（メタデータ） (2024-08-07T08:43:32Z)
Simulating Classroom Education with LLM-Empowered Agents [52.62324491261461]
SimClassは、ユーザ参加を含むマルチエージェントの教室シミュレーションフレームワークである。代表的クラスの役割を認識し、自動授業のための新しいクラス制御機構を導入する。我々は,LLMが従来の教室のインタラクションパターンを効果的にシミュレートし,ユーザエクスペリエンスを向上させることを実証した。
論文参考訳（メタデータ） (2024-06-27T14:51:07Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。 LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文参考訳（メタデータ） (2024-02-17T18:31:21Z)
Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文参考訳（メタデータ） (2024-01-14T01:09:48Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。