論文の概要: Black-Box Skill Stealing Attack from Proprietary LLM Agents: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.21829v1
- Date: Thu, 23 Apr 2026 16:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.761098
- Title: Black-Box Skill Stealing Attack from Proprietary LLM Agents: An Empirical Study
- Title(参考訳): プロプライエタリLSMエージェントによるブラックボックススキルステアリング攻撃 : 実証的研究
- Authors: Zihan Wang, Rui Zhang, Yu Liu, Chi Liu, Qingchuan Zhao, Hongwei Li, Guowen Xu,
- Abstract要約: LLMエージェントシステムに対するブラックボックススキル盗難の実証的研究を行った。
以上の結果から,エージェントスキルは3つのインタラクションで抽出できることが示唆された。
我々はエージェントパイプラインの3つのステージ(入力、推論、出力)にまたがって防御を設計する。
- 参考スコア(独自算出の注目度): 32.698841771877824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents increasingly rely on skills to encapsulate reusable capabilities via progressively disclosed instructions. High-quality skills inject expert knowledge into general-purpose models, improving performance on specialized tasks. This quality and ease of dissemination drive the emergence of a skill economy: free skill marketplaces already report 90368 published skills, while paid marketplaces report more than 2000 listings and over $100,000 in creator earnings. Yet this growing marketplace also creates a new attack surface, as adversaries can interact with public agent to extract hidden proprietary skill content. We present the first empirical study of black-box skill stealing against LLM agent systems. To study this threat, we first derive an attack taxonomy from prior prompt-stealing methods and build an automated stealing prompt generation agent. This agent starts from model-generated seed prompts, expands them through scenario rationalization and structure injection, and enforces diversity via embedding filtering. This process yields a reproducible pipeline for evaluating agent systems. We evaluate such attacks across 3 commercial agent architectures and 5 LLMs. Our results show that agent skills can be extracted with only 3 interactions, posing a serious copyright risk. To mitigate this threat, we design defenses across three stages of the agent pipeline: input, inference, and output. Although these defenses achieve strong results, the attack remains inexpensive and readily automatable, allowing an adversary to launch repeated attempts with different variants; only one successful attempt is sufficient to compromise the protected skill. Overall, our findings suggest that these copyright risks are largely overlooked across proprietary agent ecosystems. We therefore advocate for more robust defense strategies that provide stronger protection guarantees.
- Abstract(参考訳): LLMエージェントは、徐々に開示された指示を通じて再利用可能な能力をカプセル化する技術にますます依存している。
高品質なスキルは、専門家の知識を汎用モデルに注入し、特殊タスクのパフォーマンスを改善する。
無料スキルマーケットプレースはすでに90368の公開スキルを報告しており、有料マーケットプレースは2000以上のリストと10万ドル以上のクリエーターの収益を報告している。
敵は公開エージェントと対話して、隠されたプロプライエタリなスキルコンテンツを抽出することができる。
LLMエージェントシステムに対するブラックボックススキルステルスに関する最初の実証的研究について述べる。
この脅威を調査するために、我々はまず、事前の急速操法から攻撃分類を導出し、自動盗難防止剤を構築する。
このエージェントはモデル生成のシードプロンプトから始まり、シナリオの合理化と構造注入を通じて拡張し、埋め込みフィルタリングによって多様性を強制する。
このプロセスは、エージェントシステムを評価するために再現可能なパイプラインを生成する。
3つの商用エージェントアーキテクチャと5つのLLMにまたがる攻撃を評価する。
以上の結果から,エージェントスキルは3つのインタラクションで抽出できることが示唆された。
この脅威を軽減するために、私たちはエージェントパイプラインの3つのステージ(入力、推論、出力)にまたがる防御を設計します。
これらの防御は強い結果をもたらすが、攻撃は安価で容易に自動化可能であり、敵が異なる変種で繰り返し試みることを可能にする。
全体としては、これらの著作権リスクは、プロプライエタリなエージェントエコシステム全体で見過ごされていることを示唆しています。
したがって我々は、より強力な保護保証を提供するより堅牢な防衛戦略を提唱する。
関連論文リスト
- SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - A Survey on Agentic Security: Applications, Threats and Defenses [6.83318476483428]
受動LSMから自律LSMエージェントへの急速なシフトは、サイバーセキュリティの新しいパラダイムである。
これらのエージェントは攻撃的かつ防御的な操作のための強力なツールとして機能するが、非常にエージェント的なコンテキストは、固有のセキュリティリスクの新たなクラスを導入している。
我々は150以上の論文を包括的に分類し、エージェントの使用方法、それらが持つ脆弱性、それらを保護するために設計された対策を説明します。
論文 参考訳(メタデータ) (2025-10-07T20:32:20Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。