論文の概要: SoK: Measuring What Matters for Closed-Loop Security Agents
- arxiv url: http://arxiv.org/abs/2510.01654v1
- Date: Thu, 02 Oct 2025 04:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.985635
- Title: SoK: Measuring What Matters for Closed-Loop Security Agents
- Title(参考訳): SoK: クローズド・ループ・セキュリティ・エージェントにとっての重要事項を計測する
- Authors: Mudita Khurana, Raunak Jain,
- Abstract要約: CLASP: Closed-Loop Autonomous Security Performanceフレームワークを紹介します。
セキュリティライフサイクル(リコネッサンス、エクスプロイト、ルート原因合成分析、パッチ合成、バリデーション)をコアエージェント機能と整合させる。
次に,閉ループ能力(CLC)スコア(Closed-Loop Capability, CLC)を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cybersecurity is a relentless arms race, with AI driven offensive systems evolving faster than traditional defenses can adapt. Research and tooling remain fragmented across isolated defensive functions, creating blind spots that adversaries exploit. Autonomous agents capable of integrating, exploit confirmation, remediation, and validation into a single closed loop offer promise, but the field lacks three essentials: a framework defining the agentic capabilities of security systems across security life cycle, a principled method for evaluating closed loop agents, and a benchmark for measuring their performance in practice. We introduce CLASP: the Closed-Loop Autonomous Security Performance framework which aligns the security lifecycle (reconnaissance, exploitation, root cause analysis, patch synthesis, validation) with core agentic capabilities (planning, tool use, memory, reasoning, reflection & perception) providing a common vocabulary and rubric for assessing agentic capabilities in security tasks. By applying CLASP to 21 representative works, we map where systems demonstrate strengths, and where capability gaps persist. We then define the Closed-Loop Capability (CLC) Score, a composite metric quantifying both degree of loop closure and operational effectiveness, and outline the requirements for a closed loop benchmark. Together, CLASP and the CLC Score, provide the vocabulary, diagnostics, and measurements needed to advance both function level performance and measure closed loop security agents.
- Abstract(参考訳): サイバーセキュリティは絶え間ない武器競争であり、AIによる攻撃システムは従来の防衛が適応できるよりも急速に進化している。
研究とツールは孤立した防御機能で断片化され、敵が悪用する盲点を生み出している。
認証、修復、バリデーションを単一のクローズドループに統合し、活用できる自律エージェントは、約束を果たすが、このフィールドには、セキュリティライフサイクル全体にわたってセキュリティシステムのエージェント能力を定義するフレームワーク、クローズドループエージェントを評価する原則化された方法、実際にパフォーマンスを測定するベンチマークの3つの必須事項が欠けている。
CLASP: セキュリティライフサイクル(リコネッサンス、エクスプロイト、ルート原因分析、パッチ合成、バリデーション)とコアエージェント機能(計画、ツール使用、メモリ、推論、リフレクション、認識)を整合させ、セキュリティタスクにおけるエージェント機能を評価する共通の語彙とルーブルを提供する。
CLASPを21の代表的な作業に適用することにより、システムは強度を示し、能力ギャップは持続するかをマップする。
次に,閉ループ能力(CLC)スコアを定義し,閉ループベンチマークの要件を概説する。
CLASPとCLC Scoreは、機能レベルのパフォーマンスの向上とクローズドループセキュリティエージェントの測定に必要な語彙、診断、測定を提供する。
関連論文リスト
- AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - Secure and Scalable Face Retrieval via Cancelable Product Quantization [48.58859061524146]
ホモモルフィック暗号化(HE)は、暗号空間における算術演算を有効にすることにより、強力なセキュリティ保証を提供する。
セキュアな顔表現検索のための高効率なフレームワークであるCancelable Product Quantizationを提案する。
論文 参考訳(メタデータ) (2025-08-31T10:19:55Z) - Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills [3.0620527758972496]
本稿では,モデルコンテキストプロトコルに基づくエージェントシステムにおいて,新たな脆弱性クラスを特定し,解析する。
このアタックチェーンは、有害な緊急行動を生み出すために、個々に認可された個々のタスクをどのように編成するかを説明し、実証する。
論文 参考訳(メタデータ) (2025-08-27T01:11:59Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems [10.393477652794747]
大規模言語モデル(LLM)や視覚言語モデル(VLM)の最近の進歩は、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントを可能にしている。
能力の増大にもかかわらず、今日のエージェントフレームワークは脆弱であり、セキュアな情報フロー、信頼性、マルチエージェント調整のための原則的なメカニズムが欠如している。
SAFEFLOWは信頼性の高いLDM/VLMベースのエージェントを構築するための新しいプロトコルレベルフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T09:04:37Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。