論文の概要: Formal Analysis and Supply Chain Security for Agentic AI Skills
- arxiv url: http://arxiv.org/abs/2603.00195v1
- Date: Fri, 27 Feb 2026 06:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.099088
- Title: Formal Analysis and Supply Chain Security for Agentic AI Skills
- Title(参考訳): エージェントAIスキルの形式解析とサプライチェーンセキュリティ
- Authors: Varun Pratap Bhardwaj,
- Abstract要約: SkillFortifyは、エージェントスキルサプライチェーンのための最初の公式分析フレームワークである。
抽象解釈に基づく健全な静的解析フレームワークを提供する。
SATベースの解像度は1000ノードグラフを100ミリ秒以下で処理するのに対し、100%精度と0%偽陽性率は540スキルで達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of agentic AI skill ecosystems -- exemplified by OpenClaw (228,000 GitHub stars) and Anthropic Agent Skills (75,600 stars) -- has introduced a critical supply chain attack surface. The ClawHavoc campaign (January-February 2026) infiltrated over 1,200 malicious skills into the OpenClaw marketplace, while MalTool catalogued 6,487 malicious tools that evade conventional detection. In response, twelve reactive security tools emerged, yet all rely on heuristic methods that provide no formal guarantees. We present SkillFortify, the first formal analysis framework for agent skill supply chains, with six contributions: (1) the DY-Skill attacker model, a Dolev-Yao adaptation to the five-phase skill lifecycle with a maximality proof; (2) a sound static analysis framework grounded in abstract interpretation; (3) capability-based sandboxing with a confinement proof; (4) an Agent Dependency Graph with SAT-based resolution and lockfile semantics; (5) a trust score algebra with formal monotonicity; and (6) SkillFortifyBench, a 540-skill benchmark. SkillFortify achieves 96.95% F1 (95% CI: [95.1%, 98.4%]) with 100% precision and 0% false positive rate on 540 skills, while SAT-based resolution handles 1,000-node graphs in under 100 ms.
- Abstract(参考訳): エージェントAIスキルエコシステムの急速な拡大 — OpenClaw(228,000のGitHubスター)とHistropic Agent Skills(75,600のスター)によって実証された — は、重要なサプライチェーン攻撃面を導入している。
ClawHavocキャンペーン(2026年1月から2月)は、1200以上の悪意あるスキルをOpenClawマーケットプレースに浸透させ、MalToolは、従来の検出を回避する6,487の悪意あるツールをカタログ化した。
これに対して、12のリアクティブセキュリティツールが登場したが、すべてが正式な保証を提供するヒューリスティックな方法に依存している。
エージェントスキルサプライチェーンの最初の形式的分析フレームワークであるSkillFortifyについて,(1)DYスキル攻撃モデル,(2)抽象的解釈に基づく音質静的解析フレームワーク,(3)SATベースの解像度とロックファイルのセマンティクスを備えたエージェント依存グラフ,(5)形式的な単調性を備えた信頼スコア代数,(6)540スキルベンチマークであるSkillFortifyBenchについて述べる。
SkillFortify は 96.95% F1 (95% CI: [95.1%, 98.4%]) を達成し、100%精度と 540 のスキルに対する偽陽性率は 0% である。
関連論文リスト
- Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - David vs. Goliath: Verifiable Agent-to-Agent Jailbreaking via Reinforcement Learning [1.8047694351309207]
我々は、安全に配慮したオペレーターの信頼された特権にツールレスの敵が"タグを付ける"脅威モデルを定式化し、会話だけで禁止されたツールの使用を誘導する。
創発的攻撃ベクトルを自律的に発見する強化学習フレームワークであるSlingshotを紹介する。
我々の研究は、タッグ・アロング・アタックを第一級で検証可能な脅威モデルとして確立し、環境相互作用のみを通じて、既製のオープンウェイトモデルから効果的なエージェント・アタックが引き出されることを示す。
論文 参考訳(メタデータ) (2026-02-02T17:56:55Z) - Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.757365536859453]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。
このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。
2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (2026-01-15T12:31:52Z) - Cybersecurity AI: A Game-Theoretic AI for Guiding Attack and Defense [1.0933254855925085]
Generative Cut-the-Rope (G-CTR) はエージェントのコンテキストから攻撃グラフを抽出するゲーム理論誘導層である。
5つの実世界のエクササイズでは、G-CTRは専門家グラフ構造の70~90%と一致し、60~245倍高速で、手作業による分析より140倍以上安い。
論文 参考訳(メタデータ) (2026-01-09T16:06:10Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization [18.013438474903314]
本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-12T03:14:50Z) - SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law [91.33824439029533]
我々は,機能と安全性の共進化を示す最先端のマルチモーダル推論モデルであるSafeWork-R1を紹介する。
大規模でプログレッシブで安全指向の強化学習をポストトレーニングに取り入れたSafeLadderフレームワークを開発した。
さらに,SafeWork-R1-InternVL3-78B,SafeWork-R1-DeepSeek-70B,SafeWork-R1-Qwen2.5VL-7Bを開発した。
論文 参考訳(メタデータ) (2025-07-24T16:49:19Z) - AI Agent Smart Contract Exploit Generation [8.69235891205913]
A1は、いかなる大規模言語モデルもエンドツーエンドのエクスプロイトジェネレータに変換するエージェントシステムである。
A1は、自律的な脆弱性発見のための6つのドメイン固有のツールを提供する。
我々は、A1がエクスプロイト当たり最大8.59億ドル、合計9.33億ドルを抽出していることを示す。
論文 参考訳(メタデータ) (2025-07-08T00:45:26Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - (De)Randomized Smoothing for Certifiable Defense against Patch Attacks [136.79415677706612]
我々は、所定の画像とパッチ攻撃サイズを保証する、パッチ攻撃に対する認証可能な防御を導入する。
本手法はランダム化スムースなロバスト性スキームの幅広いクラスに関係している。
その結果,CIFAR-10およびImageNetに対するパッチ攻撃に対する認証済みの防御技術が確立した。
論文 参考訳(メタデータ) (2020-02-25T08:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。