Fugu-MT 論文翻訳(概要): Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

論文の概要: Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

arxiv url: http://arxiv.org/abs/2604.02837v1
Date: Fri, 03 Apr 2026 07:56:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.387985
Title: Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis
Title（参考訳）: 安全なエージェントスキルを目指して:アーキテクチャ、脅威分類、セキュリティ分析
Authors: Zhiyuan Li, Jingzheng Wu, Xiang Ling, Xing Cui, Tianyue Luo,
Abstract要約: 本稿では,エージェントスキルフレームワークの総合的セキュリティ解析について述べる。 3つの攻撃層にまたがって組織された7つのカテゴリと17のシナリオからなる脅威分類を構築した。我々の分析によると、最も深刻な脅威はフレームワーク自体の構造的特性から生じている。
参考スコア（独自算出の注目度）: 16.858784442027037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agent Skills is an emerging open standard that defines a modular, filesystem-based packaging format enabling LLM-based agents to acquire domain-specific expertise on demand. Despite rapid adoption across multiple agentic platforms and the emergence of large community marketplaces, the security properties of Agent Skills have not been systematically studied. This paper presents the first comprehensive security analysis of the Agent Skills framework. We define the full lifecycle of an Agent Skill across four phases -- Creation, Distribution, Deployment, and Execution -- and identify the structural attack surface each phase introduces. Building on this lifecycle analysis, we construct a threat taxonomy comprising seven categories and seventeen scenarios organized across three attack layers, grounded in both architectural analysis and real-world evidence. We validate the taxonomy through analysis of five confirmed security incidents in the Agent Skills ecosystem. Based on these findings, we discuss defense directions for each threat category, identify open research challenges, and provide actionable recommendations for stakeholders. Our analysis reveals that the most severe threats arise from structural properties of the framework itself, including the absence of a data-instruction boundary, a single-approval persistent trust model, and the lack of mandatory marketplace security review, and cannot be addressed through incremental mitigations alone.
Abstract（参考訳）: Agent Skillsは、モジュール化されたファイルシステムベースのパッケージングフォーマットを定義する、新たなオープン標準である。複数のエージェントプラットフォームで急速に普及し、大規模なコミュニティマーケットプレースが出現したにもかかわらず、エージェントスキルのセキュリティ特性は体系的に研究されていない。本稿では,エージェントスキルフレームワークの総合的セキュリティ解析について述べる。生成、配布、デプロイ、実行という4つのフェーズにわたるエージェントスキルの全ライフサイクルを定義し、各フェーズが導入する構造的な攻撃面を特定します。このライフサイクル分析に基づいて、アーキテクチャ分析と実世界の証拠の両方に基づいて、3つの攻撃層にまたがって組織された7つのカテゴリと17のシナリオからなる脅威分類を構築した。我々は,エージェントスキルエコシステムにおける5つの確認されたセキュリティインシデントの分析を通じて,分類を検証した。これらの知見に基づき、脅威カテゴリーごとの防衛方針を議論し、オープンな研究課題を特定し、ステークホルダーに行動可能なレコメンデーションを提供する。分析の結果,データ・インストラクション・バウンダリの欠如,単一承認の永続的信頼モデル,必須市場セキュリティレビューの欠如など,フレームワーク自体の構造的特性から最も深刻な脅威が生じることが明らかとなった。

関連論文リスト

A Systematic Security Evaluation of OpenClaw and Its Variants [26.64519805689193]
本稿では,6つの代表的なOpenClaw-Seriesエージェントフレームワークのセキュリティ評価について述べる。エージェント実行ライフサイクル全体にわたって、代表的な攻撃行動をカバーする205のテストケースのベンチマークを構築した。以上の結果から, 評価されたエージェントはいずれも重大なセキュリティ上の脆弱性を示し, エージェント化されたシステムは, 基礎となるモデルよりもかなりリスクが高いことがわかった。
論文参考訳（メタデータ） (2026-04-03T15:52:36Z)
Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks [21.880338678029503]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルにおける幻覚とドメイン知識の欠如を、外部知識ベースを組み込むことによって著しく軽減する。本稿では、その基盤となる脆弱性メカニズムを分析し、データ中毒、敵攻撃、メンバシップ推論攻撃などのコア脅威ベクトルを体系的に分類する。潜在的なリスクについて深い洞察を得ることにより、この研究は、高度に堅牢で信頼性の高い次世代RAGシステムの開発を促進することを目指している。
論文参考訳（メタデータ） (2026-03-23T07:32:59Z)
Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats [29.43070870263607]
我々はOpenClawの総合的なセキュリティ脅威分析を行う。本研究は, 間接的プロンプト注入, スキルサプライチェーン汚染, メモリ中毒, インテントドリフトなど, エージェントのライフサイクル全体にわたる脅威について検討する。本研究は,時間的・多段階のシステム的リスクに対処する際の,現在のポイントベース防御機構の重大な欠陥を明らかにするものである。
論文参考訳（メタデータ） (2026-03-12T07:24:05Z)
The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文参考訳（メタデータ） (2026-02-11T02:47:10Z)
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文参考訳（メタデータ） (2026-01-26T13:45:41Z)
How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文参考訳（メタデータ） (2025-11-11T17:27:27Z)
A Survey on Agentic Security: Applications, Threats and Defenses [6.83318476483428]
受動LSMから自律LSMエージェントへの急速なシフトは、サイバーセキュリティの新しいパラダイムである。これらのエージェントは攻撃的かつ防御的な操作のための強力なツールとして機能するが、非常にエージェント的なコンテキストは、固有のセキュリティリスクの新たなクラスを導入している。我々は150以上の論文を包括的に分類し、エージェントの使用方法、それらが持つ脆弱性、それらを保護するために設計された対策を説明します。
論文参考訳（メタデータ） (2025-10-07T20:32:20Z)
Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文参考訳（メタデータ） (2025-02-19T23:03:21Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。 LLMをベースとしたエージェントの6つの重要な特徴を概説する。 4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文参考訳（メタデータ） (2024-11-14T15:40:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。