論文の概要: SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents
- arxiv url: http://arxiv.org/abs/2606.02302v1
- Date: Mon, 01 Jun 2026 14:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.277077
- Title: SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents
- Title(参考訳): SeClaw: 自律エージェント評価のための仕様駆動型セキュリティタスク合成
- Authors: Hao Cheng, Changtao Miao, Tianle Song, Yin Wu, He Liu, Erjia Xiao, Junchi Chen, Xiaoyu Shi, Yichi Wang, Jing Yang, Taowen Wang, Jinhao Duan, Mengshu Sun, Peiyan Dong, Xuan Shen, Yang Cao, Renjing Xu, Kaidi Xu, Jindong Gu, Bo Zhang, Jize Zhang, Chenhao Lin, Philip Torr, Chao Shen,
- Abstract要約: SeClawは、仕様駆動のセキュリティタスク合成と、自律エージェントの実行ベースのセキュリティ評価を組み合わせたフレームワークである。
ベンチマークは、リソース、ユーザタスク、環境、本質的なエージェントの振る舞いから生じるリスクをカバーしている。
- 参考スコア(独自算出の注目度): 87.26967184869198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous LLM agents increasingly operate in stateful environments where they access tools, files, memory, and external services. While such capabilities enable complex real-world workflows, they also introduce security risks that are difficult to capture with existing evaluations. Current agent security benchmarks often rely on manually curated tasks, provide limited coverage of emerging threats, and focus primarily on final outcomes rather than the execution processes that lead to unsafe behavior. We introduce SeClaw, a framework that combines specification-driven security task synthesis with execution-based security evaluation for Autonomous agents. Spec-driven security task synthesis enables scalable and controllable construction of security tasks from structured risk specifications, while SeClaw docker provides a standardized testbed for evaluating agent behavior under diverse safety-risk scenarios. The benchmark covers risks arising from resources, user tasks, environments, and intrinsic agent behaviors, and supports trajectory-aware assessment of unsafe actions beyond final responses. By bridging systematic task synthesis and reproducible security evaluation, SeClaw provides a practical foundation for measuring, diagnosing, and comparing security failures in autonomous LLM agents. The code is available at https://github.com/seclaw-eval/seclaw-eval.
- Abstract(参考訳): 自律的なLLMエージェントは、ツール、ファイル、メモリ、外部サービスにアクセスするステートフルな環境でますます運用される。
このような機能は、複雑な現実世界のワークフローを可能にする一方で、既存の評価で捉えにくいセキュリティリスクも導入する。
現在のエージェントセキュリティベンチマークは、しばしば手動でキュレートされたタスクに依存し、出現する脅威を限定的にカバーし、安全でない振る舞いにつながる実行プロセスではなく、最終的な結果に重点を置いている。
本稿では,仕様駆動型セキュリティタスク合成と自律エージェントの実行ベースのセキュリティ評価を組み合わせたフレームワークであるSeClawを紹介する。
仕様駆動のセキュリティタスク合成は、構造化されたリスク仕様から、スケーラブルで制御可能なセキュリティタスクの構築を可能にする一方、SeClaw dockerは、さまざまな安全リスクシナリオ下でエージェントの振る舞いを評価するための標準化されたテストベッドを提供する。
このベンチマークは、リソース、ユーザタスク、環境、本質的なエージェントの振る舞いから生じるリスクをカバーし、最終応答を超える安全でないアクションの軌跡を意識した評価をサポートする。
系統的なタスク合成と再現可能なセキュリティ評価をブリッジすることで、SeClawは自律LLMエージェントのセキュリティ障害の測定、診断、比較のための実践的な基盤を提供する。
コードはhttps://github.com/seclaw-eval/seclaw-eval.comで公開されている。
関連論文リスト
- Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment [64.36422334429228]
大規模言語モデル(LLM)は、現実の環境で運用されるエージェントとして、ますます多くデプロイされている。
既存のエージェントの安全性評価は、特定のエージェント設定に合わせて、リスク指向のタスクに依存する。
本稿では,現実の展開に根ざした組織的エージェント安全評価を実現するフレームワークであるR Risky-Benchを提案する。
論文 参考訳(メタデータ) (2026-02-03T04:44:11Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.861657542626219]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。