論文の概要: BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning
- arxiv url: http://arxiv.org/abs/2604.09378v1
- Date: Fri, 10 Apr 2026 14:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.916311
- Title: BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning
- Title(参考訳): BadSkill: モデル・イン・スキルによるエージェントスキルに対するバックドア攻撃
- Authors: Guiyao Tie, Jiawen Shi, Pan Zhou, Lichao Sun,
- Abstract要約: 我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
- 参考スコア(独自算出の注目度): 34.60596020541521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent ecosystems increasingly rely on installable skills to extend functionality, and some skills bundle learned model artifacts as part of their execution logic. This creates a supply-chain risk that is not captured by prompt injection or ordinary plugin misuse: a third-party skill may appear benign while concealing malicious behavior inside its bundled model. We present BadSkill, a backdoor attack formulation that targets this model-in-skill threat surface. In BadSkill, an adversary publishes a seemingly benign skill whose embedded model is backdoor-fine-tuned to activate a hidden payload only when routine skill parameters satisfy attacker-chosen semantic trigger combinations. To realize this attack, we train the embedded classifier with a composite objective that combines classification loss, margin-based separation, and poison-focused optimization, and evaluate it in an OpenClaw-inspired simulation environment that preserves third-party skill installation and execution while enabling controlled multi-model study. Our benchmark spans 13 skills, including 8 triggered tasks and 5 non-trigger control skills, with a combined main evaluation set of 571 negative-class queries and 396 trigger-aligned queries. Across eight architectures (494M--7.1B parameters) from five model families, BadSkill achieves up to 99.5\% average attack success rate (ASR) across the eight triggered skills while maintaining strong benign-side accuracy on negative-class queries. In poison-rate sweeps on the standard test split, a 3\% poison rate already yields 91.7\% ASR. The attack remains effective across the evaluated model scales and under five text perturbation types. These findings identify model-bearing skills as a distinct model supply-chain risk in agent ecosystems and motivate stronger provenance verification and behavioral vetting for third-party skill artifacts.
- Abstract(参考訳): エージェントエコシステムは、機能拡張のためのインストール可能なスキルにますます依存しており、いくつかのスキルは、学習したモデルアーティファクトを実行ロジックの一部としてバンドルしている。
これにより、プロンプトインジェクションや通常のプラグイン誤用によってキャプチャされないサプライチェーンリスクが発生する。
我々はBadSkillを紹介します。BadSkillは、このモデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、アタッカー・チョーゼン・セマンティック・トリガの組み合わせを満足する場合のみ、組み込まれたモデルがバックドアで調整され、隠されたペイロードを活性化する、一見良質なスキルをパブリッシュする。
この攻撃を実現するために、分類損失、マージンベース分離、毒物中心最適化を組み合わせた複合目的の組込み分類器を訓練し、制御されたマルチモデル研究を可能にしながら、サードパーティのスキルのインストールと実行を保ったOpenClawにインスパイアされたシミュレーション環境で評価する。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
モデルファミリの8つのアーキテクチャ(494M--7.1Bパラメータ)にまたがって、BadSkillは8つのトリガスキルの平均攻撃成功率(ASR)を99.5パーセントまで達成し、負のクラスクエリの強い良質な側面の精度を維持している。
標準試験のスプリットでは、既に3\%の毒が91.7\%のASRをもたらす。
この攻撃は評価されたモデルスケールと5つのテキスト摂動タイプで有効である。
これらの結果から, モデル担持スキルは, エージェント生態系におけるモデルサプライチェーンリスクの識別と, サードパーティのスキルアーティファクトに対するより強力な証明と行動検証の動機付けを担っていることが明らかとなった。
関連論文リスト
- Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities [0.0]
ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を悪用することができる。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデル,37のプロンプト条件,12の仮説的攻撃次元の1万の試行に基づく系統分類を提示する。
論文 参考訳(メタデータ) (2026-04-06T09:44:34Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - David vs. Goliath: Verifiable Agent-to-Agent Jailbreaking via Reinforcement Learning [1.8047694351309207]
我々は、安全に配慮したオペレーターの信頼された特権にツールレスの敵が"タグを付ける"脅威モデルを定式化し、会話だけで禁止されたツールの使用を誘導する。
創発的攻撃ベクトルを自律的に発見する強化学習フレームワークであるSlingshotを紹介する。
我々の研究は、タッグ・アロング・アタックを第一級で検証可能な脅威モデルとして確立し、環境相互作用のみを通じて、既製のオープンウェイトモデルから効果的なエージェント・アタックが引き出されることを示す。
論文 参考訳(メタデータ) (2026-02-02T17:56:55Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning [14.011140902511135]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。