論文の概要: A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns
- arxiv url: http://arxiv.org/abs/2410.16155v1
- Date: Mon, 21 Oct 2024 16:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:13.432275
- Title: A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns
- Title(参考訳): 感染したジェイルブレイクで街が混乱
- Authors: Tianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。
既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。
本稿では,大規模なマルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
- 参考スコア(独自算出の注目度): 19.015202590038996
- License:
- Abstract: With the development of large language models, they are widely used as agents in various fields. A key component of agents is memory, which stores vital information but is susceptible to jailbreak attacks. Existing research mainly focuses on single-agent attacks and shared memory attacks. However, real-world scenarios often involve independent memory. In this paper, we propose the Troublemaker Makes Chaos in Honest Town (TMCHT) task, a large-scale, multi-agent, multi-topology text-based attack evaluation framework. TMCHT involves one attacker agent attempting to mislead an entire society of agents. We identify two major challenges in multi-agent attacks: (1) Non-complete graph structure, (2) Large-scale systems. We attribute these challenges to a phenomenon we term toxicity disappearing. To address these issues, we propose an Adversarial Replication Contagious Jailbreak (ARCJ) method, which optimizes the retrieval suffix to make poisoned samples more easily retrieved and optimizes the replication suffix to make poisoned samples have contagious ability. We demonstrate the superiority of our approach in TMCHT, with 23.51%, 18.95%, and 52.93% improvements in line topology, star topology, and 100-agent settings. Encourage community attention to the security of multi-agent systems.
- Abstract(参考訳): 大規模言語モデルの開発に伴い、様々な分野のエージェントとして広く使われている。
エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。
既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。
しかし、現実のシナリオは独立記憶を伴うことが多い。
本稿では,大規模・マルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
TMCHTには、エージェントの社会全体を誤解させようとする1人の攻撃エージェントが含まれる。
マルチエージェント攻撃における主な課題は,(1)非完全グラフ構造,(2)大規模システムである。
これらの課題は毒性の消失という現象に起因している。
これらの問題に対処するために, 検索接尾辞を最適化し, より容易に検索できるようにし, 複製接尾辞を最適化して, 有毒な接尾辞を感染性のあるものにする, ARCJ法を提案する。
TMCHTでは23.51%、18.95%、52.93%のライントポロジ、スタートポロジ、100エージェント設定の改善が見られた。
マルチエージェントシステムのセキュリティに対するコミュニティの注意を喚起する。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast [37.82463128368278]
マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
Red-teamingの取り組みは、敵のイメージ/プロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こすことを明らかにしている。
感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性の問題が報告されている。
論文 参考訳(メタデータ) (2024-02-13T16:06:17Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。