論文の概要: $\textit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks
- arxiv url: http://arxiv.org/abs/2504.00218v1
- Date: Mon, 31 Mar 2025 20:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:52.512977
- Title: $\textit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks
- Title(参考訳): $\textit{Agents Under Siege}$:Breaking Pragmatic Multi-Agent LLM Systems withtimized Prompt Attacks
- Authors: Rana Muhammad Shahroz Khan, Zhen Tan, Sukwon Yun, Charles Flemming, Tianlong Chen,
- Abstract要約: マルチエージェント大規模言語モデル(LLM)システムは,エージェント間の通信や分散推論に依存するため,新たな敵対的リスクを生み出す。
本研究では,トークンの帯域幅の制限,メッセージ配信のレイテンシ,防御機構といった制約のある実用的システムへの攻撃に革新的な焦点をあてる。
我々は、レイテンシと帯域幅制約のあるネットワークトポロジ間の迅速な分散を最適化し、分散安全機構をバイパスする、$textitpermutation-invariant adversarial attack$を設計する。
- 参考スコア(独自算出の注目度): 32.42704787246349
- License:
- Abstract: Most discussions about Large Language Model (LLM) safety have focused on single-agent settings but multi-agent LLM systems now create novel adversarial risks because their behavior depends on communication between agents and decentralized reasoning. In this work, we innovatively focus on attacking pragmatic systems that have constrains such as limited token bandwidth, latency between message delivery, and defense mechanisms. We design a $\textit{permutation-invariant adversarial attack}$ that optimizes prompt distribution across latency and bandwidth-constraint network topologies to bypass distributed safety mechanisms within the system. Formulating the attack path as a problem of $\textit{maximum-flow minimum-cost}$, coupled with the novel $\textit{Permutation-Invariant Evasion Loss (PIEL)}$, we leverage graph-based optimization to maximize attack success rate while minimizing detection risk. Evaluating across models including $\texttt{Llama}$, $\texttt{Mistral}$, $\texttt{Gemma}$, $\texttt{DeepSeek}$ and other variants on various datasets like $\texttt{JailBreakBench}$ and $\texttt{AdversarialBench}$, our method outperforms conventional attacks by up to $7\times$, exposing critical vulnerabilities in multi-agent systems. Moreover, we demonstrate that existing defenses, including variants of $\texttt{Llama-Guard}$ and $\texttt{PromptGuard}$, fail to prohibit our attack, emphasizing the urgent need for multi-agent specific safety mechanisms.
- Abstract(参考訳): LLM(Large Language Model)の安全性に関する議論は、シングルエージェント設定に重点を置いているが、エージェント間の通信や分散推論に依存するため、マルチエージェントのLCMシステムは新たな敵のリスクを生んでいる。
本研究では,トークンの帯域幅の制限,メッセージ配信のレイテンシ,防御機構といった制約のある実用的システムへの攻撃に革新的な焦点をあてる。
我々は、システム内の分散安全機構をバイパスするために、レイテンシと帯域幅に制約のあるネットワークトポロジ間の迅速な分散を最適化する$\textit{permutation-invariant adversarial attack}$を設計する。
攻撃経路を$\textit{maximum-flow minimum-cost}$という問題として定式化し、新しい$\textit{Permutation-Invariant Evasion Loss (PIEL)$と組み合わせると、グラフベースの最適化を利用して攻撃成功率を最大化し、検出リスクを最小限に抑える。
$\texttt{Llama}$, $\texttt{Mistral}$, $\texttt{Gemma}$, $\texttt{DeepSeek}$, $\texttt{JailBreakBench}$, $\textt{AdversarialBench}$など、さまざまなデータセット上の他の変種を評価すれば、当社のメソッドは、従来の攻撃を最大7\times$で上回る。
さらに、$\texttt{Llama-Guard}$と$\texttt{PromptGuard}$の変種を含む既存の防御が攻撃を禁止せず、マルチエージェント固有の安全メカニズムの緊急の必要性を強調していることを示す。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。
textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。
textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文 参考訳(メタデータ) (2024-10-03T14:14:31Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。