論文の概要: MAD-Spear: A Conformity-Driven Prompt Injection Attack on Multi-Agent Debate Systems
- arxiv url: http://arxiv.org/abs/2507.13038v1
- Date: Thu, 17 Jul 2025 12:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.483639
- Title: MAD-Spear: A Conformity-Driven Prompt Injection Attack on Multi-Agent Debate Systems
- Title(参考訳): MAD-Spear:マルチエージェント・ディベートシステムにおける整形駆動型プロンプトインジェクション攻撃
- Authors: Yu Cui, Hongyang Du,
- Abstract要約: マルチエージェントディベート(MAD)システムは,大規模言語モデル(LLM)間の協調的な相互作用を利用して推論能力を向上させる。
MAD-Spearは,少数のエージェントを妨害するが,MADプロセス全体を著しく破壊するプロンプトインジェクション攻撃である。
- 参考スコア(独自算出の注目度): 4.931691794637798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent debate (MAD) systems leverage collaborative interactions among large language models (LLMs) agents to improve reasoning capabilities. While recent studies have focused on increasing the accuracy and scalability of MAD systems, their security vulnerabilities have received limited attention. In this work, we introduce MAD-Spear, a targeted prompt injection attack that compromises a small subset of agents but significantly disrupts the overall MAD process. Manipulated agents produce multiple plausible yet incorrect responses, exploiting LLMs' conformity tendencies to propagate misinformation and degrade consensus quality. Furthermore, the attack can be composed with other strategies, such as communication attacks, to further amplify its impact by increasing the exposure of agents to incorrect responses. To assess MAD's resilience under attack, we propose a formal definition of MAD fault-tolerance and develop a comprehensive evaluation framework that jointly considers accuracy, consensus efficiency, and scalability. Extensive experiments on five benchmark datasets with varying difficulty levels demonstrate that MAD-Spear consistently outperforms the baseline attack in degrading system performance. Additionally, we observe that agent diversity substantially improves MAD performance in mathematical reasoning tasks, which challenges prior work suggesting that agent diversity has minimal impact on performance. These findings highlight the urgent need to improve the security in MAD design.
- Abstract(参考訳): マルチエージェント討論(MAD)システムは,大規模言語モデル(LLM)エージェント間の協調的相互作用を利用して推論能力を向上させる。
最近の研究では、MADシステムの正確性とスケーラビリティの向上に焦点が当てられているが、セキュリティ上の脆弱性は注目されていない。
そこで本研究では,MAD-Spearを標的としたプロンプトインジェクション攻撃(MAD-Spear)を導入し,エージェントのサブセットを損なうが,MADプロセス全体を著しく破壊する。
操作されたエージェントは複数のプラウジブルで不正確な応答を生成し、LLMの適合性を利用して誤情報を伝達し、コンセンサスの品質を低下させる。
さらに、この攻撃は、コミュニケーション攻撃のような他の戦略で構成することができ、不正な応答に対するエージェントの露出を増やすことで、その影響をさらに増幅することができる。
攻撃時のMADのレジリエンスを評価するため,MADフォールトトレランスの形式的定義を提案し,精度,コンセンサス効率,スケーラビリティを両立させる総合評価フレームワークを開発した。
様々な難易度を持つ5つのベンチマークデータセットに対する大規模な実験は、MAD-Spearがシステム性能の劣化において、ベースラインアタックを一貫して上回っていることを示している。
さらに,エージェントの多様性が数学的推論タスクのMAD性能を大幅に向上させることを観察し,エージェントの多様性がパフォーマンスに与える影響を最小限に抑えることを示唆する先行研究に挑戦する。
これらの知見は,MAD設計におけるセキュリティ向上の緊急の必要性を浮き彫りにしている。
関連論文リスト
- Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate [26.12314848354772]
本稿では,商業LLM上に構築された4つの著名なMADフレームワークのジェイルブレイク脆弱性を系統的に調査する。
我々はMADダイナミックスを利用した新しい構造化されたプロンプト-リライトフレームワークを提案する。
提案手法は, この脆弱性を著しく増幅し, 平均有害度を28.14%から80.34%に増加させ, 特定のシナリオにおける攻撃成功率を80%まで向上させる。
論文 参考訳(メタデータ) (2025-04-23T08:01:50Z) - Is Multi-Agent Debate (MAD) the Silver Bullet? An Empirical Analysis of MAD in Code Summarization and Translation [10.038721196640864]
マルチエージェント・ディベート (MAD) システムは,大規模言語モデル (LLM) 間の構造化された議論を可能にする
MADは、役割特異的なエージェント、動的相互作用、構造化された意思決定を通じて、散発的な思考を促進する。
本研究では,2つのソフトウェア工学(SE)タスクにおけるMADの有効性について検討する。
論文 参考訳(メタデータ) (2025-03-15T07:30:37Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs [7.7433783185451075]
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
マルチエージェントの議論システムは、現在の形式では、他の提案されたプロンプト戦略を確実に上回っているわけではない。
これらの結果に基づいて、エージェント合意レベルの調整など、議論戦略の改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-11-29T05:54:41Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Unsupervised Face Morphing Attack Detection via Self-paced Anomaly
Detection [8.981081097203088]
SPL-MAD(Self-paced Anomaly Detection)による全く教師なしのモーフィング攻撃検出ソリューションを提案する。
我々は、既存の大規模顔認識(FR)データセットと、畳み込みオートエンコーダの教師なしの性質を活用している。
実験の結果,提案したSPL-MADソリューションは広範囲の教師付きMADソリューションの全体的な性能より優れていた。
論文 参考訳(メタデータ) (2022-08-11T12:21:50Z) - Adversarial Attacks On Multi-Agent Communication [80.4392160849506]
現代の自律システムはすぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。
このような利点は、セキュリティ侵害に対して脆弱であることが示されている通信チャネルに大きく依存している。
本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。
論文 参考訳(メタデータ) (2021-01-17T00:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。