論文の概要: Benchmarking Security Risk Detection and Verification in Open Agentic Skill Ecosystems
- arxiv url: http://arxiv.org/abs/2606.00925v1
- Date: Sat, 30 May 2026 23:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:28.979994
- Title: Benchmarking Security Risk Detection and Verification in Open Agentic Skill Ecosystems
- Title(参考訳): オープンエージェントスキルエコシステムにおけるセキュリティリスク検出と検証のベンチマーク
- Authors: Ismail Hossain, Sai Puppala, Zhuoran Lu, Sajedul Talukder, Nan Jiang,
- Abstract要約: オープンエージェントスキルエコシステムのための2段階のセキュリティ検証ベンチマークであるSkillVetBenchを紹介します。
最初のステージでは、各スキルの自然言語仕様に対してセマンティックな検証を行い、隠れた悪意のある意図を検出する。
第2ステージは、計測されたサンドボックスでフラグ付きスキルを実行し、実行時の振る舞いを観察し、監査可能な証拠を収集する。
- 参考スコア(独自算出の注目度): 12.697933469209586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open agent platforms allow community contributors to publish reusable skills that agents can invoke at runtime. This extensibility also creates a supply-chain risk: malicious contributors can hide harmful behavior inside skills that appear benign under superficial inspection. However, existing defenses are hard to evaluate because there is no benchmark that measures both malicious-skill detection and runtime verification. We present SkillVetBench, a two-stage security vetting benchmark for open agentic skill ecosystems. The first stage performs semantic vetting over each skill's natural-language specification to detect hidden malicious intent. The second stage executes flagged skills in an instrumented sandbox to observe runtime behavior and collect auditable evidence. We build a benchmark from confirmed malicious skills in the live OpenClaw ecosystem, including samples from the recent ClawHavoc supplychain campaign. Unlike static-only methods, SkillVetBench verifies detected threats with execution traces. Our experiments show that: (1) semantic-only and signature-based baselines are insufficient, missing up to 89\% of malicious skills whose threats arise from natural-language instructions, multicomponent logic, or cross-component interactions; (2) runtime attacks are concentrated in a small set of high-permission primitives, especially exec, write\_file, install\_skill, and spawn; and (3) SkillVetBench provides case studies in which sandbox execution directly supports malicious verdicts with concrete runtime evidence.
- Abstract(参考訳): オープンエージェントプラットフォームにより、コミュニティコントリビュータは、エージェントが実行時に呼び出すことのできる再利用可能なスキルをパブリッシュできる。
この拡張性はまたサプライチェーンのリスクも生み出します。悪意のあるコントリビュータは、表面検査の下で良さそうに見えるスキルの中に有害な振る舞いを隠すことができます。
しかし、悪意のあるスキルの検出と実行時の検証の両方を測定するベンチマークがないため、既存の防御は評価が難しい。
オープンエージェントスキルエコシステムのための2段階のセキュリティ検証ベンチマークであるSkillVetBenchを紹介します。
最初のステージでは、各スキルの自然言語仕様に対してセマンティックな検証を行い、隠れた悪意のある意図を検出する。
第2ステージは、計測されたサンドボックスでフラグ付きスキルを実行し、実行時の振る舞いを観察し、監査可能な証拠を収集する。
我々は、最近行われたClawHavocサプライチェーンキャンペーンのサンプルを含む、生のOpenClawエコシステムで確認された悪意のあるスキルのベンチマークを構築します。
静的のみのメソッドとは異なり、SkillVetBenchは検出された脅威を実行トレースで検証する。
実験の結果,(1) セマンティックオンリーおよびシグネチャベースラインが不十分で,自然言語命令や複数コンポーネント論理,あるいはクロスコンポーネントインタラクションによる脅威が生じる悪意のあるスキルの最大99%が欠落していること,(2) 実行時アタックは,実行時,特にexec, write\_file, install\_skill, spawnなど,少数のハイパーミッションプリミティブに集約されていること,(3) SkillVetBenchは,サンドボックスの実行が具体的な実行時証拠によって悪意のある判断を直接サポートするケーススタディを提供する。
関連論文リスト
- AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents [0.2864713389096699]
本稿では,AgentSecBenchを,この問題に対する正式なセキュリティフレームワークの実証的なインスタンス化として紹介する。
3つのゲーム・インストラクション・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を定めている。
これは、承認された観察と能力に対するプロジェクションとしてのアプリケーションポリシーを表し、プロジェクションの即時アノテーションとプロジェクションの強化を区別し、敵のアドバンテージと、防衛が生成前に関連するモデル可視チャネルを閉鎖するかどうかを計測する。
論文 参考訳(メタデータ) (2026-05-25T18:53:22Z) - SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces [28.615215165815297]
SkillSafetyBenchは、スキルを介する安全性障害を評価するためのベンチマークである。
ローカライズされた非ユーザアタックは、常に安全でない振る舞いを誘導できることを示す。
その結果, エージェントの安全性は, モデルレベルのアライメントだけでなく, エージェントがいかにスキルを解釈するかにも依存していることがわかった。
論文 参考訳(メタデータ) (2026-05-12T12:03:54Z) - ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? [92.21756459993695]
低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T18:00:14Z) - Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (2026-02-16T00:33:02Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - Reactive Bottom-Up Testing [15.280664862119565]
リアクティブボトムアップテスト(Reactive Bottom-Up Testing)と呼ばれる新しいパラダイムを導入します。
私たちの洞察では、機能レベルのテストは必要だが、機能内の脆弱性の検証には不十分である。
本研究では,潜在的な機能を特定し,型とコンテキストを意識したハーネスを生成する3段階のボトムアップテスト手法を開発した。
論文 参考訳(メタデータ) (2025-09-03T20:54:43Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - CRAFT: Characterizing and Root-Causing Fault Injection Threats at Pre-Silicon [3.6158033114580674]
フォールトインジェクション攻撃は組み込みシステムに重大なセキュリティ脅威をもたらす。
物理的欠陥がシステムレベルの行動にどのように伝播するかの早期発見と理解は、サイバーインフラ構造を保護するために不可欠である。
この研究は、プレシリコン分析とポストシリコンバリデーションを組み合わせたフレームワークであるCRAFTを導入し、障害インジェクションの脆弱性を体系的に発見し分析する。
論文 参考訳(メタデータ) (2025-03-05T20:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。