論文の概要: Large Language Model Integration with Reinforcement Learning to Augment Decision-Making in Autonomous Cyber Operations
- arxiv url: http://arxiv.org/abs/2509.05311v1
- Date: Thu, 28 Aug 2025 23:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.913456
- Title: Large Language Model Integration with Reinforcement Learning to Augment Decision-Making in Autonomous Cyber Operations
- Title(参考訳): 自律型サイバー操作における大規模言語モデル統合と強化学習
- Authors: Konur Tholl, François Rivest, Mariam El Mezouar, Ranwa Al Mallah,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、サイバーセキュリティ分野における自律的な意思決定に大きな可能性を示している。
本研究では,サイバーセキュリティデータに基づいて事前訓練したLarge Language Model(LLM)の形で外部知識を統合する。
指導エージェントは早期訓練中に2倍以上の報奨を達成し,ベースラインよりも約4,500エピソードの速さで好意的な方針に収束することを示した。
- 参考スコア(独自算出の注目度): 0.6591422574318154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown great potential for autonomous decision-making in the cybersecurity domain, enabling agents to learn through direct environment interaction. However, RL agents in Autonomous Cyber Operations (ACO) typically learn from scratch, requiring them to execute undesirable actions to learn their consequences. In this study, we integrate external knowledge in the form of a Large Language Model (LLM) pretrained on cybersecurity data that our RL agent can directly leverage to make informed decisions. By guiding initial training with an LLM, we improve baseline performance and reduce the need for exploratory actions with obviously negative outcomes. We evaluate our LLM-integrated approach in a simulated cybersecurity environment, and demonstrate that our guided agent achieves over 2x higher rewards during early training and converges to a favorable policy approximately 4,500 episodes faster than the baseline.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、サイバーセキュリティ領域における自律的な意思決定に大きな可能性を示しており、エージェントは直接の環境相互作用を通じて学習することができる。
しかしながら、自律サイバー作戦(ACO)のRLエージェントは通常、スクラッチから学習し、結果を知るために望ましくない行動を実行する必要がある。
本研究では,我々のRLエージェントが直接活用できるサイバーセキュリティデータに基づいて事前訓練されたLarge Language Model(LLM)の形で外部知識を統合する。
初等訓練をLSMで指導することにより,基本性能を改善し,明らかな負の結果を伴う探索行動の必要性を低減できる。
シミュレーションサイバーセキュリティ環境でのLCM統合アプローチを評価し, 早期トレーニング中に指導エージェントが2倍以上の報酬を達成し, ベースラインよりも約4500エピソード早く, 好意的な方針に収束することが実証された。
関連論文リスト
- LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning [11.602831593017427]
本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。
RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。
本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T06:26:57Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文 参考訳(メタデータ) (2025-03-19T22:48:20Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games [0.0]
SecurityBotは、サイバーセキュリティオペレーションをサポートするために、事前訓練されたRLエージェントが指導する強化学習エージェントである。
動作ガイドラインを生成するプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを削減するアクションモジュールがサポートされている。
CybORG の実験フレームワーク上に構築された経験から,SecurityBot は LLM や RL のスタンドアロンと比較して,大幅なパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2024-03-26T13:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。