Fugu-MT 論文翻訳(概要): Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

論文の概要: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

arxiv url: http://arxiv.org/abs/2402.08567v1
Date: Tue, 13 Feb 2024 16:06:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 14:40:02.286275
Title: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
Title（参考訳）: エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる
Authors: Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin
Abstract要約: マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。 Red-teamingの取り組みは、敵のイメージ/プロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こすことを明らかにしている。感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性の問題が報告されている。
参考スコア（独自算出の注目度）: 39.45374595078185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。本研究では,感染性脱獄と呼ばれるマルチエージェント環境において,さらに深刻な安全性問題が発生したことを報告する。敵は単に一つのエージェントをジェイルブレイクし、敵からのそれ以上の介入なしに、(ほとんど)すべてのエージェントが指数関数的に感染し、有害な行動を示す。感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送ると, 感染性ジェイルブレイクを達成できることがわかった。最後に、防御機構が感染性脱獄の拡散を効果的に抑制できるかどうかを判断するための簡単な原則を導出するが、この原則に適合する実用的な防御をいかに設計するかは、調査すべき未解決の問題である。プロジェクトのページはhttps://sail-sg.github.io/agent-smith/で閲覧できます。

関連論文リスト

Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
Probabilistic Modeling of Jailbreak on Multimodal LLMs: From Quantification to Application [3.514716436491414]
入力のジェイルブレイクポテンシャルを定量化するためにジェイルブレイク確率を導入し、この入力によってMLLMが悪意ある応答を発生させる可能性を示す。具体的には,Jailbreak-Probability-based Attack (JPA)を提案する。また,攻撃対策として,MLLMパラメータ更新によるジェイルブレイク確率の最小化を目的としたジェイルブレイクプロビタビリティに基づくファインタニング(JPF)を提案する。
論文参考訳（メタデータ） (2025-03-10T07:10:38Z)
JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文参考訳（メタデータ） (2025-02-11T13:50:50Z)
Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文参考訳（メタデータ） (2024-11-18T11:58:07Z)
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。 LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文参考訳（メタデータ） (2024-11-06T10:32:09Z)
IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。 IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns [19.015202590038996]
エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。本稿では,大規模なマルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
論文参考訳（メタデータ） (2024-10-21T16:21:24Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-03-14T18:24:55Z)
Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。 imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文参考訳（メタデータ） (2024-02-04T01:29:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。