論文の概要: Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2504.16489v1
- Date: Wed, 23 Apr 2025 08:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.042178
- Title: Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate
- Title(参考訳): 増幅脆弱性:LLMに基づくマルチエージェント議論における構造的ジェイルブレイク攻撃
- Authors: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu,
- Abstract要約: 本稿では,商業LLM上に構築された4つの著名なMADフレームワークのジェイルブレイク脆弱性を系統的に調査する。
我々はMADダイナミックスを利用した新しい構造化されたプロンプト-リライトフレームワークを提案する。
提案手法は, この脆弱性を著しく増幅し, 平均有害度を28.14%から80.34%に増加させ, 特定のシナリオにおける攻撃成功率を80%まで向上させる。
- 参考スコア(独自算出の注目度): 26.12314848354772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Debate (MAD), leveraging collaborative interactions among Large Language Models (LLMs), aim to enhance reasoning capabilities in complex tasks. However, the security implications of their iterative dialogues and role-playing characteristics, particularly susceptibility to jailbreak attacks eliciting harmful content, remain critically underexplored. This paper systematically investigates the jailbreak vulnerabilities of four prominent MAD frameworks built upon leading commercial LLMs (GPT-4o, GPT-4, GPT-3.5-turbo, and DeepSeek) without compromising internal agents. We introduce a novel structured prompt-rewriting framework specifically designed to exploit MAD dynamics via narrative encapsulation, role-driven escalation, iterative refinement, and rhetorical obfuscation. Our extensive experiments demonstrate that MAD systems are inherently more vulnerable than single-agent setups. Crucially, our proposed attack methodology significantly amplifies this fragility, increasing average harmfulness from 28.14% to 80.34% and achieving attack success rates as high as 80% in certain scenarios. These findings reveal intrinsic vulnerabilities in MAD architectures and underscore the urgent need for robust, specialized defenses prior to real-world deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)間の協調的な相互作用を活用するマルチエージェント・ディベート(MAD)は,複雑なタスクにおける推論能力の向上を目的としている。
しかし、それらの反復的対話とロールプレイングの特徴、特に有害な内容を引き起こすジェイルブレイク攻撃に対する感受性のセキュリティへの影響は、いまだに過小評価されている。
本稿では,主要な商用LCM(GPT-4o,GPT-4,GPT-3.5-turbo,DeepSeek)上に構築された4つのMADフレームワークのジェイルブレイク脆弱性を,内部エージェントを損なうことなく系統的に検討する。
本稿では,物語のカプセル化,役割駆動エスカレーション,反復的洗練,修辞的難読化などを通じてMADダイナミクスを活用するために設計された,新しい構造化されたプロンプト-リライトフレームワークを提案する。
大規模な実験により、MADシステムは単一エージェントのセットアップよりも本質的に脆弱であることが示された。
重要なことに,提案手法は, この脆弱性を著しく増幅し, 平均有害度を28.14%から80.34%に増加させ, 特定のシナリオにおける攻撃成功率を80%まで向上させる。
これらの結果から,MADアーキテクチャの固有の脆弱性が明らかになった。
関連論文リスト
- Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles [2.5167155755957316]
コンテキスト・フュージョン・アタック (Context Fusion Attack, CFA) は、コンテキスト・フュージョン・ブラックボックス・ジェイルブレイク・アタックの手法である。
また,他の多ターン攻撃戦略と比較して,CFAの成功率,ばらつき,有害性を示す。
論文 参考訳(メタデータ) (2024-08-08T09:18:47Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。