論文の概要: SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces
- arxiv url: http://arxiv.org/abs/2605.12015v1
- Date: Tue, 12 May 2026 12:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.839406
- Title: SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces
- Title(参考訳): SkillSafetyBench:Skill-Facing攻撃面下でのエージェントの安全性の評価
- Authors: Chang Jin, An Wang, Zeming Wei, Kai Wang, Biaojie Zeng, Qiaosheng Zhang, Chao Yang, Jingjing Qu, Xia Hu, Xingcheng Xu,
- Abstract要約: SkillSafetyBenchは、スキルを介する安全性障害を評価するためのベンチマークである。
ローカライズされた非ユーザアタックは、常に安全でない振る舞いを誘導できることを示す。
その結果, エージェントの安全性は, モデルレベルのアライメントだけでなく, エージェントがいかにスキルを解釈するかにも依存していることがわかった。
- 参考スコア(独自算出の注目度): 28.615215165815297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusable skills are becoming a common interface for extending large language model agents, packaging procedural guidance with access to files, tools, memory, and execution environments. However, this modularity introduces attack surfaces that are largely missed by existing safety evaluations: even when the user request is benign, task-relevant skill materials or local artifacts can steer an agent toward unsafe actions. We present SkillSafetyBench, a runnable benchmark for evaluating such skill-mediated safety failures. SkillSafetyBench includes 155 adversarial cases across 47 tasks, 6 risk domains, and 30 safety categories, each evaluated with a case-specific rule-based verifier. Experiments with multiple CLI agents and model backends show that localized non-user attacks can consistently induce unsafe behavior, with distinct failure patterns across domains, attack methods, and scaffold-model pairings. Our findings suggest that agent safety depends not only on model-level alignment, but also on how agents interpret skills, trust workflow context, and act through executable environments.
- Abstract(参考訳): 再利用可能なスキルは、大規模な言語モデルエージェントを拡張し、ファイル、ツール、メモリ、実行環境へのアクセスを伴う手続き的ガイダンスをパッケージングするための一般的なインターフェースになりつつある。
しかし、このモジュラリティは、既存の安全性評価でほとんど見落とされた攻撃面を導入している: ユーザ要求が良心的であったとしても、タスク関連スキル材料やローカルアーティファクトは、エージェントを安全でないアクションに向けて操ることができる。
SkillSafetyBenchは、このようなスキルを介する安全性障害を評価するための実行可能なベンチマークである。
SkillSafetyBenchには、47のタスクに155の敵ケース、6のリスクドメイン、30の安全カテゴリが含まれており、それぞれがケース固有のルールベースの検証によって評価されている。
複数のCLIエージェントとモデルバックエンドによる実験では、ローカライズされた非ユーザアタックは、ドメイン間で異なる障害パターン、アタックメソッド、足場モデルペアリングによって、一貫して安全でない振る舞いを誘導できる。
その結果,エージェントの安全性は,モデルレベルのアライメントだけでなく,エージェントがスキルの解釈やワークフローのコンテキストの信頼,実行環境を通しての行動にも依存することがわかった。
関連論文リスト
- HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models [87.35765363039638]
本研究では,視覚・言語・アクションモデルのセマンティック安全性を評価するためのベンチマークであるHazardArenaを紹介する。
安全シナリオに特化してトレーニングされたVLAモデルは、対応する安全でないシナリオで評価された場合、安全に動作しないことが多い。
本研究では,セマンティック属性や視覚言語判断を用いた行動実行を制約する,トレーニングフリーの安全オプション層を提案する。
論文 参考訳(メタデータ) (2026-04-14T08:32:02Z) - A Systematic Security Evaluation of OpenClaw and Its Variants [26.64519805689193]
本稿では,6つの代表的なOpenClaw-Seriesエージェントフレームワークのセキュリティ評価について述べる。
エージェント実行ライフサイクル全体にわたって、代表的な攻撃行動をカバーする205のテストケースのベンチマークを構築した。
以上の結果から, 評価されたエージェントはいずれも重大なセキュリティ上の脆弱性を示し, エージェント化されたシステムは, 基礎となるモデルよりもかなりリスクが高いことがわかった。
論文 参考訳(メタデータ) (2026-04-03T15:52:36Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (2026-02-16T00:33:02Z) - Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment [64.36422334429228]
大規模言語モデル(LLM)は、現実の環境で運用されるエージェントとして、ますます多くデプロイされている。
既存のエージェントの安全性評価は、特定のエージェント設定に合わせて、リスク指向のタスクに依存する。
本稿では,現実の展開に根ざした組織的エージェント安全評価を実現するフレームワークであるR Risky-Benchを提案する。
論文 参考訳(メタデータ) (2026-02-03T04:44:11Z) - BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments [22.32760987248309]
本研究では,機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
BSBは、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的なドメインをカバーしている。
機能的環境を用いて、安全クリティカルリスクの9つのカテゴリでタスクを増強し、多様な指導空間を構築する。
論文 参考訳(メタデータ) (2026-01-30T03:41:57Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。
本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文 参考訳(メタデータ) (2024-08-20T17:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。