論文の概要: SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems
- arxiv url: http://arxiv.org/abs/2604.06811v1
- Date: Wed, 08 Apr 2026 08:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.424574
- Title: SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems
- Title(参考訳): SkillTrojan: スキルベースのエージェントシステムに対するバックドア攻撃
- Authors: Yunhao Feng, Yifan Ding, Yingshui Tan, Boren Zheng, Yanming Guo, Xiaolong Li, Kun Zhai, Yishan Li, Wenke Huang,
- Abstract要約: SkillTrojanは、モデルパラメータやトレーニングデータではなく、スキル実装をターゲットにしたバックドア攻撃である。
さまざまなスキルパターンとトリガー-ペイロード構成にまたがる、3000以上のキュレートされたバックドアスキルのデータセットをリリースします。
以上の結果から, スキルレベルのバックドアは, 良性行動の低下を最小限に抑え, 極めて効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 28.8194560427555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill-based agent systems tackle complex tasks by composing reusable skills, improving modularity and scalability while introducing a largely unexamined security attack surface. We propose SkillTrojan, a backdoor attack that targets skill implementations rather than model parameters or training data. SkillTrojan embeds malicious logic inside otherwise plausible skills and leverages standard skill composition to reconstruct and execute an attacker-specified payload. The attack partitions an encrypted payload across multiple benign-looking skill invocations and activates only under a predefined trigger. SkillTrojan also supports automated synthesis of backdoored skills from arbitrary skill templates, enabling scalable propagation across skill-based agent ecosystems. To enable systematic evaluation, we release a dataset of 3,000+ curated backdoored skills spanning diverse skill patterns and trigger-payload configurations. We instantiate SkillTrojan in a representative code-based agent setting and evaluate both clean-task utility and attack success rate. Our results show that skill-level backdoors can be highly effective with minimal degradation of benign behavior, exposing a critical blind spot in current skill-based agent architectures and motivating defenses that explicitly reason about skill composition and execution. Concretely, on EHR SQL, SkillTrojan attains up to 97.2% ASR while maintaining 89.3% clean ACC on GPT-5.2-1211-Global.
- Abstract(参考訳): スキルベースのエージェントシステムは、再利用可能なスキルを構成することで複雑なタスクに対処し、モジュール性とスケーラビリティを改善しながら、ほとんど検討されていないセキュリティアタックサーフェスを導入している。
我々は、モデルパラメータやトレーニングデータではなく、スキル実装をターゲットにしたバックドア攻撃であるSkillTrojanを提案する。
SkillTrojanは悪意のあるロジックをもっともらしいスキルに埋め込んで、標準的なスキル構成を活用して、攻撃者が特定したペイロードを再構築し実行します。
この攻撃は、暗号化されたペイロードを複数の良心的なスキル呼び出しに分割し、事前に定義されたトリガの下でのみ起動する。
SkillTrojanはまた、任意のスキルテンプレートからバックドアスキルの自動合成をサポートし、スキルベースのエージェントエコシステム間のスケーラブルな伝搬を可能にする。
体系的な評価を可能にするため、多様なスキルパターンとトリガー・ペイロード構成にまたがる3000以上のキュレートされたバックドアスキルのデータセットをリリースする。
代表的なコードベースのエージェント設定でSkillTrojanをインスタンス化し、クリーンタスクユーティリティとアタック成功率の両方を評価する。
以上の結果から, スキルレベルのバックドアは, 良識の低下を最小限に抑え, 現行のスキルベースエージェントアーキテクチャにおいて重要な盲点を露呈し, スキル構成と実行を明示的に理由づける防御のモチベーションを高めることで, 極めて効果的であることが示唆された。
具体的には、ERH SQL上では、SkillTrojanは最大97.2%のASRを獲得し、GPT-5.2-1211-Global上で89.3%クリーンACCを維持している。
関連論文リスト
- SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Semantically-Equivalent Transformations-Based Backdoor Attacks against Neural Code Models: Characterization and Mitigation [13.36343806244795]
セマンティック・等価トランスフォーメーション(SET)ベースのバックドアアタックと呼ばれる,新たなバックドアアタックを導入する。
SETをベースとした攻撃は、モデルユーティリティを保ちながら高い成功率(しばしば90%)を達成することを示す。
この攻撃は高いステルス性を示し、注射ベースの防御よりも平均25.13%以上低い検出率で最先端の防御を回避している。
論文 参考訳(メタデータ) (2025-12-22T09:54:52Z) - Exposing Vulnerabilities in RL: A Novel Stealthy Backdoor Attack through Reward Poisoning [5.764005502656677]
我々は,報酬信号に毒を加えてエージェントのポリシーを操るステルスなバックドア攻撃について研究する。
この攻撃の有効性は、デプロイされたRLシステムの完全性に対する重大な脅威を浮き彫りにする。
論文 参考訳(メタデータ) (2025-11-27T12:48:33Z) - TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models [67.06525001375722]
TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。
様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。
TrojanTOはDT、GDT、DCに広く適用可能である。
論文 参考訳(メタデータ) (2025-06-15T11:27:49Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Rethink Stealthy Backdoor Attacks in Natural Language Processing [35.6803390044542]
盗んだバックドア攻撃の能力は、バックドア攻撃に分類されると過大評価される。
クリーン状態と毒素状態モデルとのASR差を測定するASRD(Attack successful rate difference)と呼ばれる新しい指標を提案する。
本手法は,ステルスなバックドア攻撃に対する最先端の防御方法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-09T12:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。