論文の概要: Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.11496v2
- Date: Tue, 19 Nov 2024 03:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:09.088852
- Title: Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models
- Title(参考訳): Safe + Safe = Unsafe? 大規模な視覚ランゲージモデルに安全な画像が投獄される方法を探る
- Authors: Chenhang Cui, Gelei Deng, An Zhang, Jingnan Zheng, Yicong Li, Lianli Gao, Tianwei Zhang, Tat-Seng Chua,
- Abstract要約: Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
- 参考スコア(独自算出の注目度): 80.77246856082742
- License:
- Abstract: Recent advances in Large Vision-Language Models (LVLMs) have showcased strong reasoning abilities across multiple modalities, achieving significant breakthroughs in various real-world applications. Despite this great success, the safety guardrail of LVLMs may not cover the unforeseen domains introduced by the visual modality. Existing studies primarily focus on eliciting LVLMs to generate harmful responses via carefully crafted image-based jailbreaks designed to bypass alignment defenses. In this study, we reveal that a safe image can be exploited to achieve the same jailbreak consequence when combined with additional safe images and prompts. This stems from two fundamental properties of LVLMs: universal reasoning capabilities and safety snowball effect. Building on these insights, we propose Safety Snowball Agent (SSA), a novel agent-based framework leveraging agents' autonomous and tool-using abilities to jailbreak LVLMs. SSA operates through two principal stages: (1) initial response generation, where tools generate or retrieve jailbreak images based on potential harmful intents, and (2) harmful snowballing, where refined subsequent prompts induce progressively harmful outputs. Our experiments demonstrate that \ours can use nearly any image to induce LVLMs to produce unsafe content, achieving high success jailbreaking rates against the latest LVLMs. Unlike prior works that exploit alignment flaws, \ours leverages the inherent properties of LVLMs, presenting a profound challenge for enforcing safety in generative multimodal systems. Our code is avaliable at \url{https://github.com/gzcch/Safety_Snowball_Agent}.
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)の進歩は、複数のモダリティにまたがる強力な推論能力を示し、様々な現実世界の応用において大きなブレークスルーを達成している。
この大きな成功にもかかわらず、LVLMの安全ガードレールは、視覚的モダリティによって導入された予期せぬ領域をカバーしていないかもしれない。
既存の研究は主に、アライメント防御をバイパスするために設計された画像ベースのジェイルブレイクを慎重に作成することで、LVLMを有害な応答を生成することに焦点を当てている。
本研究では, 安全な画像と, 安全な画像とプロンプトを組み合わせることで, 同じジェイルブレイク効果が得られることを示す。
これはLVLMの2つの基本的な性質、普遍的推論能力と安全雪玉効果に由来する。
これらの知見に基づいて,エージェントの自律的・ツール利用能力を活用した新しいエージェントベースフレームワークであるSafety Snowball Agent (SSA)を提案する。
SSAは,(1)初期応答生成,(2)潜在的有害な意図に基づくジェイルブレイク画像の生成,検索,(2)有害なスノーボール,(2)改良された後続のプロンプトが徐々に有害なアウトプットを誘導する2つの主要な段階を通じて運営されている。
我々の実験では、Shaoursはどんな画像でもLVLMを誘導して安全でないコンテンツを生成できることを示し、最新のLVLMに対してジェイルブレイク率が高いことを証明した。
アライメントの欠陥を利用する以前の研究とは異なり、 \oursはLVLMの固有の特性を活用し、生成的マルチモーダルシステムにおける安全性の強化に重大な課題を提起している。
我々のコードは \url{https://github.com/gzcch/Safety_Snowball_Agent} で無効です。
関連論文リスト
- Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Rethinking Jailbreaking through the Lens of Representation Engineering [45.70565305714579]
最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。