論文の概要: A Red Teaming Framework for Evaluating Robustness of AI-enabled Security Orchestration, Automation, and Response Systems
- arxiv url: http://arxiv.org/abs/2605.17075v1
- Date: Sat, 16 May 2026 16:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.595935
- Title: A Red Teaming Framework for Evaluating Robustness of AI-enabled Security Orchestration, Automation, and Response Systems
- Title(参考訳): AIによるセキュリティオーケストレーション,自動化,応答システムのロバスト性評価のためのレッドチームフレームワーク
- Authors: Ayan Javeed Shaikh, Nathaniel D. Bastian, Ankit Shah,
- Abstract要約: 大規模言語モデル(LLM)と強化学習(RL)を統合した,自律的なレッドチーム編成フレームワークを導入する。
階層設計では、戦略目的のためのLSMベースのプランナーと戦術実行のためのRLコントローラを組み合わせる。
- 参考スコア(独自算出の注目度): 8.56054061802862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-enabled Security Orchestration, Automation, and Response (SOAR) systems increasingly employ autonomous agents for cyber defense, yet their resilience to adaptive adversaries is underexplored. We introduce an autonomous red teaming framework that integrates large language models (LLMs) with reinforcement learning (RL) to generate adaptive, multi-stage attack campaigns against autonomous defenders in enterprise networks. A hierarchical design combines an LLM-based planner for strategic intent with an RL controller for tactical execution, supported by reward shaping aligned with kill-chain progression. Evaluation in a high-fidelity enterprise simulation demonstrates the effectiveness of the proposed approach, while also showing that standalone LLM agents fail to sustain multi-stage attack campaigns and that domain-specific cybersecurity models achieve only limited levels of compromise, highlighting the necessity for hybrid LLM-RL approaches to red teaming.
- Abstract(参考訳): AI対応のセキュリティオーケストレーション、自動化、レスポンス(SOAR)システムは、サイバー防御のために自律エージェントをますます採用している。
我々は,大規模言語モデル(LLM)と強化学習(RL)を統合して,企業ネットワークにおける自律型ディフェンダーに対する適応的多段階攻撃キャンペーンを生成する,自律的レッドチーム化フレームワークを導入する。
階層設計では、戦略目的のためのLSMベースのプランナーと戦術実行のためのRLコントローラを組み合わせる。
高忠実度企業シミュレーションにおける評価は、提案手法の有効性を示す一方で、スタンドアローンのLLMエージェントがマルチステージ攻撃キャンペーンを継続できず、ドメイン固有のサイバーセキュリティモデルが限られたレベルの妥協しか達成できないことを示し、レッドチームへのハイブリッドLLM-RLアプローチの必要性を強調している。
関連論文リスト
- Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - Hierarchical Adversarially-Resilient Multi-Agent Reinforcement Learning for Cyber-Physical Systems Security [0.0]
本稿では,階層型適応型レジリエントなマルチエージェント強化学習フレームワークを提案する。
このフレームワークには、進化するサイバー脅威をシミュレートし予測するために設計された敵の訓練ループが含まれている。
論文 参考訳(メタデータ) (2025-06-12T01:38:25Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [68.73212422583548]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration [40.350632196772466]
本稿では,大規模言語モデル(LLM)に対する完全自動化とエンドツーエンドのレッドコラボレーションのための新しいフレームワークであるAutoRedTeamerを紹介する。
AutoRedTeamerはマルチエージェントアーキテクチャとメモリ誘導型攻撃選択機構を組み合わせることで、新たな攻撃ベクトルの継続的な発見と統合を可能にする。
我々は、さまざまな評価設定でAutoRedTeamerの有効性を示し、HarmBenchのLlama-3.1-70Bに対する攻撃成功率を20%向上させた。
論文 参考訳(メタデータ) (2025-03-20T00:13:04Z) - Multi-Objective Reinforcement Learning for Automated Resilient Cyber Defence [0.0]
サイバー攻撃は、軍事指揮統制ネットワーク、情報、監視、偵察(ISR)システム、民間の臨界国家インフラにセキュリティ上の脅威をもたらす。
これらの攻撃における人工知能と自律エージェントの使用は、この脅威の規模、範囲、複雑さを増大させ、それらが引き起こす破壊を後押しする。
自律サイバー防衛(ACD)エージェントは、マシンスピードとこの問題に対処するために必要なスケールで応答することで、この脅威を軽減することを目指している。
論文 参考訳(メタデータ) (2024-11-26T16:51:52Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。