論文の概要: Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents
- arxiv url: http://arxiv.org/abs/2603.10041v1
- Date: Fri, 06 Mar 2026 22:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.581347
- Title: Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents
- Title(参考訳): 自律型サイバー攻撃エージェントの一般化メカニズムの評価
- Authors: Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia,
- Abstract要約: 我々は、自律的な攻撃エージェントが訓練対象のネットワークを超えた移動に失敗する方法について研究する。
3つのエージェントファミリー(従来のRL,適応エージェント,LLMベースのエージェント)を比較し,行動分布に基づく行動/XAI分析を用いて障害モードをローカライズする。
プロンプト駆動型LDMエージェントは、保持された再割り当てにおいて最も成功したが、推論時間の増大、透明性の低下、繰り返し/無効動作ループのような実用的な障害モードのコストがかかる。
- 参考スコア(独自算出の注目度): 0.5611004142746667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous offensive agents often fail to transfer beyond the networks on which they are trained. We isolate a minimal but fundamental shift -- unseen host/subnet IP reassignment in an otherwise fixed enterprise scenario -- and evaluate attacker generalization in the NetSecGame environment. Agents are trained on five IP-range variants and tested on a sixth unseen variant; only the meta-learning agent may adapt at test time. We compare three agent families (traditional RL, adaptation agents, and LLM-based agents) and use action-distribution-based behavioral/XAI analyses to localize failure modes. Some adaptation methods show partial transfer but significant degradation under unseen reassignment, indicating that even address-space changes can break long-horizon attack policies. Under our evaluation protocol and agent-specific assumptions, prompt-driven pretrained LLM agents achieve the highest success on the held-out reassignment, but at the cost of increased inference-time compute, reduced transparency, and practical failure modes such as repetition/invalid-action loops.
- Abstract(参考訳): 自律攻撃エージェントは訓練対象のネットワークを超えて移動できないことが多い。
我々は、最小限だが基本的なシフト -- 他の固定されたエンタープライズシナリオにおけるホスト/サブネットIP再割り当て -- を分離し、NetSecGame環境における攻撃者の一般化を評価する。
エージェントは5つのIPレンジの変種で訓練され、6番目の見えない変種でテストされる。
3つのエージェントファミリー(従来のRL,適応エージェント,LLMベースのエージェント)を比較し,行動分布に基づく行動/XAI分析を用いて障害モードをローカライズする。
いくつかの適応手法は部分的移動を示すが、見知らぬ再割り当ての下で顕著な劣化を示し、アドレス空間の変化でさえ長期水平攻撃ポリシーを破る可能性があることを示している。
評価プロトコルとエージェント固有の仮定の下では,プリトレーニング済みのLCMエージェントは,計算時間の増加,透明性の低減,繰り返し/無効動作ループなどの実用的障害モードといったコストで,保持された再割り当てにおいて最高の成功を収める。
関連論文リスト
- Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework [0.0]
強化学習自由エージェント (Reinforcement Learning Free Agent, RLFA) アルゴリズムは、永続的な過パフォーマンスを示すエージェントを検出し、除去するための報酬に基づくメカニズムを導入する。
第一のユースケースは不正検出であり、RLFAは事前に設定された閾値以下で検出精度が低下するエージェントを即座に交換する。
このダイナミックでフリーの緊急サイクルは、持続的な正確さ、出現する脅威への迅速な適応、進行中の運用に対する最小限の中断を保証する。
論文 参考訳(メタデータ) (2025-01-29T13:00:22Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。