論文の概要: Query-Relevant Images Jailbreak Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2311.17600v1
- Date: Wed, 29 Nov 2023 12:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:18:23.015521
- Title: Query-Relevant Images Jailbreak Large Multi-Modal Models
- Title(参考訳): クエリ関連画像 jailbreak 大規模マルチモーダルモデル
- Authors: Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
- Abstract要約: 我々は、クエリ関連画像を利用して、オープンソースのLMMをジェイルブレイクする新しい視覚的プロンプトアタックを提案する。
本手法は,拡散モデルにより生成された画像と,テキストをタイポグラフィとして表示する画像から合成画像を生成する。
大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。
- 参考スコア(独自算出の注目度): 36.44982556551557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This paper contains examples of harmful language and images, and
reader discretion is recommended. The security concerns surrounding Large
Language Models (LLMs) have been extensively explored, yet the safety of Large
Multi-Modal Models (LMMs) remains understudied. In our study, we present a
novel visual prompt attack that exploits query-relevant images to jailbreak the
open-source LMMs. Our method creates a composite image from one image generated
by diffusion models and another that displays the text as typography, based on
keywords extracted from a malicious query. We show LLMs can be easily attacked
by our approach, even if the employed Large Language Models are safely aligned.
To evaluate the extent of this vulnerability in open-source LMMs, we have
compiled a substantial dataset encompassing 13 scenarios with a total of 5,040
text-image pairs, using our presented attack technique. Our evaluation of 12
cutting-edge LMMs using this dataset shows the vulnerability of existing
multi-modal models on adversarial attacks. This finding underscores the need
for a concerted effort to strengthen and enhance the safety measures of
open-source LMMs against potential malicious exploits. The resource is
available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
- Abstract(参考訳): 警告: 本論文は有害な言語や画像の例を含み, 読者の判断を推奨する。
大規模言語モデル(llm)に関するセキュリティの懸念は広く検討されてきたが、大規模マルチモーダルモデル(lmm)の安全性は未検討のままである。
本研究では,オープンソースのLMMをジェイルブレイクするためにクエリ関連画像を利用する新しい視覚的プロンプト攻撃を提案する。
提案手法は,拡散モデルにより生成された画像と,悪意のあるクエリから抽出したキーワードに基づいてテキストをタイポグラフィとして表示する画像から合成画像を生成する。
大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。
オープンソースのLMMにおけるこの脆弱性の程度を評価するため,提案手法を用いて,合計5,040のテキストイメージ対を持つ13のシナリオを含む実質的なデータセットを作成した。
本データセットを用いた12個の近縁LMMの評価は,既存のマルチモーダルモデルの攻撃に対する脆弱性を示す。
この発見は、潜在的に悪意のあるエクスプロイトに対するオープンソースのLMMの安全性対策を強化し、強化するための共同努力の必要性を強調している。
リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。
関連論文リスト
- Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。
本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文 参考訳(メタデータ) (2024-04-08T07:54:18Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Safety of Multimodal Large Language Models on Images and Text [36.44982556551557]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。