論文の概要: IP Leakage Attacks Targeting LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2505.12442v2
- Date: Tue, 20 May 2025 11:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.427518
- Title: IP Leakage Attacks Targeting LLM-Based Multi-Agent Systems
- Title(参考訳): LLMに基づくマルチエージェントシステムを対象としたIP漏洩攻撃
- Authors: Liwen Wang, Wenxuan Wang, Shuai Wang, Zongjie Li, Zhenlan Ji, Zongyi Lyu, Daoyuan Wu, Shing-Chi Cheung,
- Abstract要約: マルチエージェントシステム(MAS)から機密情報を抽出する新しい攻撃フレームワークMASLEAKを紹介する。
MASLEAKは実用的でブラックボックスの設定を目標としており、敵はMASアーキテクチャやエージェント設定について事前の知識を持っていない。
810個のアプリケーションを用いたMASアプリケーションの最初の合成データセットを構築し、CozeやCrewAIを含む実世界のMASアプリケーションに対してMASLEAKを評価する。
- 参考スコア(独自算出の注目度): 34.20620999592836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has led to the emergence of Multi-Agent Systems (MAS) to perform complex tasks through collaboration. However, the intricate nature of MAS, including their architecture and agent interactions, raises significant concerns regarding intellectual property (IP) protection. In this paper, we introduce MASLEAK, a novel attack framework designed to extract sensitive information from MAS applications. MASLEAK targets a practical, black-box setting, where the adversary has no prior knowledge of the MAS architecture or agent configurations. The adversary can only interact with the MAS through its public API, submitting attack query $q$ and observing outputs from the final agent. Inspired by how computer worms propagate and infect vulnerable network hosts, MASLEAK carefully crafts adversarial query $q$ to elicit, propagate, and retain responses from each MAS agent that reveal a full set of proprietary components, including the number of agents, system topology, system prompts, task instructions, and tool usages. We construct the first synthetic dataset of MAS applications with 810 applications and also evaluate MASLEAK against real-world MAS applications, including Coze and CrewAI. MASLEAK achieves high accuracy in extracting MAS IP, with an average attack success rate of 87% for system prompts and task instructions, and 92% for system architecture in most cases. We conclude by discussing the implications of our findings and the potential defenses.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、協調によって複雑なタスクを実行するためのマルチエージェントシステム(MAS)の出現につながった。
しかし、MASのアーキテクチャやエージェントの相互作用を含む複雑な性質は、知的財産権(IP)保護に関する重要な懸念を提起する。
本稿では,MASLEAKについて紹介する。MASLEAKはMASアプリケーションから機密情報を抽出する新しい攻撃フレームワークである。
MASLEAKは実用的でブラックボックスの設定を目標としており、敵はMASアーキテクチャやエージェント設定について事前の知識を持っていない。
相手は公開APIを通じてMASと対話し、攻撃クエリを$q$で送信し、ファイナルエージェントからの出力を監視できる。
コンピュータワームが脆弱なネットワークホストを伝播し感染させる方法に触発されて、MASLEAKは、エージェントの数、システムトポロジ、システムプロンプト、タスク命令、ツール使用量を含む、プロプライエタリなコンポーネントの完全なセットを明らかにする各MASエージェントからの応答を抽出、伝達、保持するために、逆クエリ$q$を慎重に作成する。
810個のアプリケーションを用いたMASアプリケーションの最初の合成データセットを構築し、CozeやCrewAIを含む実世界のMASアプリケーションに対してMASLEAKを評価する。
MASLEAKはMAS IPを抽出する際の精度が高く、攻撃成功率はシステムプロンプトとタスク命令で87%、システムアーキテクチャでは92%である。
本研究は,本研究の意義と防衛の可能性について論じる。
関連論文リスト
- AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate [26.12314848354772]
本稿では,商業LLM上に構築された4つの著名なMADフレームワークのジェイルブレイク脆弱性を系統的に調査する。
我々はMADダイナミックスを利用した新しい構造化されたプロンプト-リライトフレームワークを提案する。
提案手法は, この脆弱性を著しく増幅し, 平均有害度を28.14%から80.34%に増加させ, 特定のシナリオにおける攻撃成功率を80%まで向上させる。
論文 参考訳(メタデータ) (2025-04-23T08:01:50Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - CORBA: Contagious Recursive Blocking Attacks on Multi-Agent Systems Based on Large Language Models [11.70281170228352]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、実世界の優れた機能を示す。
本稿では,エージェント間の相互作用を阻害する新規かつシンプルかつ高効率な攻撃であるContagious Recursive Attacks (Corba)を紹介する。
論文 参考訳(メタデータ) (2025-02-20T13:02:00Z) - Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。