論文の概要: A New Framework for Cybersecurity Refusals in AI Agents
- arxiv url: http://arxiv.org/abs/2606.02644v1
- Date: Sun, 31 May 2026 15:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.488089
- Title: A New Framework for Cybersecurity Refusals in AI Agents
- Title(参考訳): AIエージェントのサイバーセキュリティ拒否のための新しいフレームワーク
- Authors: Eliot Krzysztof Jones, Mateusz Dziemian, Matt Fredrikson, J Zico Kolter,
- Abstract要約: 攻撃的セキュリティの文脈において、拒絶境界を確立するための最初の枠組みを提示する。
本研究では,現在のLLMエージェントがWebベースの攻撃的セキュリティシナリオにおいて,適切な拒絶境界にどのように準拠しているかを評価するために,このフレームワークを適用した。
- 参考スコア(独自算出の注目度): 52.94784168139071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic scaffolds have dramatically improved LLM performance on complex, long-horizon tasks, yielding both broad benefits and amplified risks in domains like cybersecurity. Existing benchmarks for AI agents in cybersecurity focus mainly on measuring proficiency--how effectively agents can complete offensive security tasks--but neglect a critical question: when and how should agents refuse harmful requests? We present the first framework for establishing refusal boundaries in offensive security contexts. Our framework defines (1) principled criteria for when tasks should be refused, (2) categories of tasks that warrant refusal, and (3) evaluation methodology for measuring agent robustness under both benign and adversarial conditions. We apply this framework to assess how current LLM-powered agents adhere to appropriate refusal boundaries across a range of web-based offensive security scenarios, finding that 6 of 8 frontier models tested show near-zero refusal rates, with only 2 models (GPT-5.2 and GPT-5.1 Codex) demonstrating any meaningful refusal behavior.
- Abstract(参考訳): エージェントの足場は、複雑で長期にわたるタスクにおけるLLMのパフォーマンスを劇的に改善し、サイバーセキュリティのような領域における幅広い利益と増幅されたリスクを生み出した。
サイバーセキュリティにおけるAIエージェントの既存のベンチマークは、主に熟練度を測定することに焦点を当てている。
攻撃的セキュリティの文脈において、拒絶境界を確立するための最初の枠組みを提示する。
本フレームワークは,(1)タスクを拒否する際の原則的基準,(2)拒否を保証するタスクのカテゴリ,(3)良否両面の条件下でエージェントの堅牢性を評価するための評価方法論を定義する。
この枠組みを適用して、現在のLLMエージェントが、Webベースの攻撃的セキュリティシナリオにまたがる適切な拒絶境界にどのように準拠しているかを評価し、テスト対象のフロンティアモデル8のうち6つがほぼゼロの拒絶率を示し、意味のある拒絶行動を示すのは2モデル(GPT-5.2とGPT-5.1 Codex)のみであることを示した。
関連論文リスト
- Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks [46.32011684548212]
AIエージェントは間接的なプロンプトインジェクションに対して脆弱であり、信頼できないデータに埋め込まれた悪意のある命令は危険なエージェントアクションを引き起こす可能性がある。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
論文 参考訳(メタデータ) (2026-03-31T17:15:46Z) - CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety [8.24714635902347]
CourtGuardは,安全評価をEvidentiary Debateとして再定義する検索強化マルチエージェントフレームワークである。
CourtGuardは、外部ポリシー文書に根ざした敵の議論を組織することで、7つの安全ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-26T02:52:11Z) - Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening [23.066685616914807]
効果的なエージェントセキュリティは、アーキテクチャ上の分離や強制よりも、本質的で選択的であるべきだ、と我々は主張する。
我々はスパイダーセンス・フレームワークを提案する。スパイダーセンス・フレームワークは、エージェントが潜伏警戒を維持し、リスク認識によってのみ防御をトリガーすることができる。
スパイダーセンスは、最低攻撃成功率(ASR)と偽陽性率(FPR)を達成して、競争力または優れた防御性能を達成する
論文 参考訳(メタデータ) (2026-02-05T07:11:05Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents [36.2255033141489]
大規模言語モデル(LLM)を利用したAIエージェントが大規模にデプロイされているが、バックボーンLLMの選択がエージェントのセキュリティに与える影響について、体系的な理解が欠如している。
脅威スナップショット: 脆弱性が現れるエージェントの実行フロー内の特定の状態を分離するフレームワーク。
194331のユニークなクラウドソース攻撃に基づくセキュリティベンチマークである$operatornameb3$ベンチマークを構築するために,このフレームワークを適用した。
論文 参考訳(メタデータ) (2025-10-26T10:36:42Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。