論文の概要: A Comparative Evaluation of Teacher-Guided Reinforcement Learning Techniques for Autonomous Cyber Operations
- arxiv url: http://arxiv.org/abs/2508.14340v1
- Date: Wed, 20 Aug 2025 01:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.301696
- Title: A Comparative Evaluation of Teacher-Guided Reinforcement Learning Techniques for Autonomous Cyber Operations
- Title(参考訳): 自律型サイバー操作における教師指導強化学習手法の比較評価
- Authors: Konur Tholl, Mariam El Mezouar, Ranwa Al Mallah,
- Abstract要約: 既存の自律サイバーオペレーション(ACO)アプリケーションは、エージェントがスクラッチから学ぶ必要があるため、収束が遅く、アーリーステージのパフォーマンスが低くなる。
我々は,シミュレートされたCybORG環境に4つの異なる指導指導手法を実装し,比較評価を行った。
この結果から,教師統合は早期政策性能と収束速度の観点から,指導効率を著しく向上させることができることが示された。
- 参考スコア(独自算出の注目度): 0.7988085110283119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Cyber Operations (ACO) rely on Reinforcement Learning (RL) to train agents to make effective decisions in the cybersecurity domain. However, existing ACO applications require agents to learn from scratch, leading to slow convergence and poor early-stage performance. While teacher-guided techniques have demonstrated promise in other domains, they have not yet been applied to ACO. In this study, we implement four distinct teacher-guided techniques in the simulated CybORG environment and conduct a comparative evaluation. Our results demonstrate that teacher integration can significantly improve training efficiency in terms of early policy performance and convergence speed, highlighting its potential benefits for autonomous cybersecurity.
- Abstract(参考訳): 自律型サイバーオペレーション(ACO)は、サイバーセキュリティ領域における効果的な決定を行うためにエージェントを訓練するために強化学習(RL)に依存している。
しかし、既存のACOアプリケーションではエージェントがスクラッチから学習する必要があるため、収束が遅く、アーリーステージのパフォーマンスが低くなる。
教師が指導する技術は他の領域で有望であることを示しているが、ACOにはまだ適用されていない。
本研究では,シミュレートされたCybORG環境に4つの異なる指導指導手法を実装し,比較評価を行った。
以上の結果から,教師統合は早期政策性能と収束速度の観点からトレーニング効率を著しく向上させ,自律型サイバーセキュリティの潜在的なメリットを浮き彫りにしている。
関連論文リスト
- Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving [1.4063588986150455]
本稿では,これらの制約を克服するために,信頼誘導型人間-AIコラボレーション(C-HAC)戦略を開発する。
C-HACは、人間との相互作用を最小限に抑えたヒト誘導政策の迅速かつ安定した学習を実現する。
様々な運転シナリオに対する実験により、C-HACは安全性、効率、全体的な性能において従来の方法よりも大幅に優れていたことが判明した。
論文 参考訳(メタデータ) (2025-06-04T04:31:10Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。