論文の概要: Behavioral Integrity Verification for AI Agent Skills
- arxiv url: http://arxiv.org/abs/2605.11770v1
- Date: Tue, 12 May 2026 08:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.721614
- Title: Behavioral Integrity Verification for AI Agent Skills
- Title(参考訳): AIエージェントスキルのための行動整合性検証
- Authors: Yuhao Wu, Tung-Ling Li, Hongliang Liu,
- Abstract要約: 我々はこれを行動整合性検証(BIV)問題として定式化する。
OpenClawレジストリの49,943のスキルでは、逸脱分類が広範な記述と実装のギャップを明らかにしている。
906スキルの悪質なスキル検出ベンチマークでは、BIVは0.946のF1に達し、最先端のルールベースとシングルパスのLCMベースラインを上回っている。
- 参考スコア(独自算出の注目度): 9.127363793428119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent skills extend LLM agents with privileged third-party capabilities such as filesystem access, credentials, network calls, and shell execution. Existing safety work catches malicious prompts and risky runtime actions, but the skill artifact itself goes unverified. We formalize this as the behavioral integrity verification (BIV) problem: a typed set comparison between declared and actual capabilities over a shared taxonomy that bridges code, instructions, and metadata. The BIV framework instantiates this comparison by pairing deterministic code analysis with LLM-assisted capability extraction. The resulting structured evidence supports three downstream analyses: deviation taxonomy, root-cause classification, and malicious-skill detection. On 49,943 skills from the OpenClaw registry, the deviation taxonomy reveals a pervasive description-implementation gap: 80.0% of skills deviate from declared behavior, with four novel compound-threat categories surfaced. Root-cause classification finds that deviations are mostly oversight, not malice: 81.1% trace to developer oversight and 18.9% to adversarial intent, with 5.0% of skills carrying predicted multi-stage attack chains. On a 906-skill malicious-skill detection benchmark, BIV reaches an F1 of 0.946, outperforming state-of-the-art rule-based and single-pass LLM baselines. These results demonstrate behavioral integrity auditing for agent skills at scale.
- Abstract(参考訳): エージェントスキルは、ファイルシステムアクセス、認証、ネットワーク呼び出し、シェル実行などの特権を持つサードパーティ機能を備えたLLMエージェントを拡張する。
既存の安全作業は、悪意のあるプロンプトと危険な実行時アクションをキャッチしますが、スキルアーティファクト自体が検証されていないのです。
我々はこれを行動整合性検証(BIV)問題として定式化し、コード、命令、メタデータをブリッジする共有分類法に対して宣言された機能と実際の能力の型付き比較を行う。
BIVフレームワークはこの比較を、LLM支援能力抽出と決定論的コード解析のペアリングによってインスタンス化する。
その結果得られた構造的証拠は、逸脱分類、根本原因分類、悪意のあるスキル検出という3つの下流分析を支持している。
OpenClawレジストリの49,943のスキルに対して、逸脱分類は、広範囲にわたる記述と実装のギャップを明らかにしている: 宣言された行動から逸脱するスキルの80.0%、新しい4つの複合脅威カテゴリが表面化している。
81.1%は開発者の監視に、そして18.9%は敵の意図に、そして5.0%は予測された多段階攻撃鎖を担っている。
906スキルの悪質なスキル検出ベンチマークでは、BIVは0.946のF1に達し、最先端のルールベースとシングルパスのLCMベースラインを上回っている。
これらの結果は,大規模にエージェントスキルを監査する行動整合性を示すものである。
関連論文リスト
- Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry [49.83108591873481]
SKILL.md - エージェントスキルライフサイクルの3つのステージを対象とするアタックのみを調査する。
SKILL.mdは受動的ドキュメントではなく、サードパーティのエージェントが発見し、信頼し、使用する機能を形成する運用テキストであることを示す。
論文 参考訳(メタデータ) (2026-05-12T02:11:54Z) - BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning [34.60596020541521]
我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
論文 参考訳(メタデータ) (2026-04-10T14:48:29Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.757365536859453]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。
このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。
2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (2026-01-15T12:31:52Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。