論文の概要: Black-Box Skill Stealing Attack from Proprietary LLM Agents: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.21829v2
- Date: Mon, 27 Apr 2026 15:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.9403
- Title: Black-Box Skill Stealing Attack from Proprietary LLM Agents: An Empirical Study
- Title(参考訳): プロプライエタリLSMエージェントによるブラックボックススキルステアリング攻撃 : 実証的研究
- Authors: Zihan Wang, Rui Zhang, Yu Liu, Chi Liu, Qingchuan Zhao, Hongwei Li, Guowen Xu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、インストラクション、ツール、リソースを通じて再利用可能な機能をパッケージするスキルに依存している。
高品質なスキルは、専門家の知識、キュレーション、実行の制約をエージェントに埋め込む。
敵は公開エージェントインターフェースと対話して、隠されたプロプライエタリなスキルコンテンツを抽出できる。
- 参考スコア(独自算出の注目度): 32.698841771877824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents increasingly rely on skills to package reusable capabilities through instructions, tools, and resources. High-quality skills embed expert knowledge, curated workflows, and execution constraints into agents, fueling a growing skill economy through their value and scalability. Yet this ecosystem also creates a new attack surface, as adversaries can interact with public agent interfaces to extract hidden proprietary skill content. We present the first systematic study of black-box skill stealing against LLM agent systems. Compared with conventional system prompt stealing, skill stealing targets modular and structured capability packages whose leakage is directly actionable for copying, redistribution, and monetization, making the resulting harm potentially greater. To study this threat, we derive an attack taxonomy from prior prompt-stealing methods and build an automated stealing prompt generation agent. Starting from model-generated seed prompts, the framework expands attacks through scenario rationalization and structure injection while enforcing diversity via embedding-based filtering, yielding a reproducible pipeline for evaluating proprietary agent systems. We evaluate these attacks across commercial agent platforms and representative LLMs. Our results show that agent skills can often be extracted easily, posing a serious copyright risk. To mitigate this threat, we design defenses across the agent pipeline, focusing on input, inference, and output phase. Although these defenses substantially reduce leakage, the attack remains inexpensive and repeatable, and a single successful attempt is sufficient to compromise the protected skill. Overall, our findings suggest that these copyright risks remain largely overlooked across proprietary agent ecosystems, motivating stronger protection mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、インストラクション、ツール、リソースを通じて再利用可能な機能をパッケージするスキルにますます依存している。
高品質なスキルは、専門家の知識、キュレートされたワークフロー、実行制約をエージェントに組み込んで、その価値とスケーラビリティを通じてスキル経済を成長させます。
しかし、このエコシステムは、敵が公開エージェントインターフェースと対話して、隠されたプロプライエタリなスキルコンテンツを抽出する、新たな攻撃面も生成する。
LLMエージェントシステムに対するブラックボックススキルステリングに関する最初の体系的研究について述べる。
従来のシステム・プロンプト・ステーリングと比較すると, 複製, 再配布, 収益化に直接動作可能な, モジュラーおよび構造化機能パッケージを標的としたスキル・ステーティングは, 潜在的に大きな害をもたらす。
この脅威を調査するために,攻撃分類法を従来手法から導出し,自動盗難防止剤を構築する。
モデル生成のシードプロンプトから始めて、このフレームワークは、シナリオ合理化と構造注入を通じて攻撃を拡張し、埋め込みベースのフィルタリングによって多様性を強制し、プロプライエタリなエージェントシステムを評価するための再現可能なパイプラインを生成する。
我々は、これらの攻撃を商用エージェントプラットフォームおよび代表LSMにわたって評価する。
以上の結果から,エージェントスキルの抽出は容易であり,重大な著作権リスクが生じることが示唆された。
この脅威を軽減するため、私たちはエージェントパイプライン全体の防御を設計し、入力、推論、出力フェーズに重点を置いています。
これらの防御は漏れを大幅に減少させるが、攻撃は安価で繰り返し可能であり、単一の試みは防御されたスキルを損なうのに十分である。
全体としては、これらの著作権リスクは、プロプライエタリなエージェントエコシステム全体で見過ごされているままであり、より強力な保護メカニズムを動機付けていることを示唆している。
関連論文リスト
- SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - A Survey on Agentic Security: Applications, Threats and Defenses [6.83318476483428]
受動LSMから自律LSMエージェントへの急速なシフトは、サイバーセキュリティの新しいパラダイムである。
これらのエージェントは攻撃的かつ防御的な操作のための強力なツールとして機能するが、非常にエージェント的なコンテキストは、固有のセキュリティリスクの新たなクラスを導入している。
我々は150以上の論文を包括的に分類し、エージェントの使用方法、それらが持つ脆弱性、それらを保護するために設計された対策を説明します。
論文 参考訳(メタデータ) (2025-10-07T20:32:20Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。