論文の概要: Query-Relevant Images Jailbreak Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2311.17600v1
- Date: Wed, 29 Nov 2023 12:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:18:23.015521
- Title: Query-Relevant Images Jailbreak Large Multi-Modal Models
- Title(参考訳): クエリ関連画像 jailbreak 大規模マルチモーダルモデル
- Authors: Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
- Abstract要約: 我々は、クエリ関連画像を利用して、オープンソースのLMMをジェイルブレイクする新しい視覚的プロンプトアタックを提案する。
本手法は,拡散モデルにより生成された画像と,テキストをタイポグラフィとして表示する画像から合成画像を生成する。
大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。
- 参考スコア(独自算出の注目度): 36.44982556551557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This paper contains examples of harmful language and images, and
reader discretion is recommended. The security concerns surrounding Large
Language Models (LLMs) have been extensively explored, yet the safety of Large
Multi-Modal Models (LMMs) remains understudied. In our study, we present a
novel visual prompt attack that exploits query-relevant images to jailbreak the
open-source LMMs. Our method creates a composite image from one image generated
by diffusion models and another that displays the text as typography, based on
keywords extracted from a malicious query. We show LLMs can be easily attacked
by our approach, even if the employed Large Language Models are safely aligned.
To evaluate the extent of this vulnerability in open-source LMMs, we have
compiled a substantial dataset encompassing 13 scenarios with a total of 5,040
text-image pairs, using our presented attack technique. Our evaluation of 12
cutting-edge LMMs using this dataset shows the vulnerability of existing
multi-modal models on adversarial attacks. This finding underscores the need
for a concerted effort to strengthen and enhance the safety measures of
open-source LMMs against potential malicious exploits. The resource is
available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
- Abstract(参考訳): 警告: 本論文は有害な言語や画像の例を含み, 読者の判断を推奨する。
大規模言語モデル(llm)に関するセキュリティの懸念は広く検討されてきたが、大規模マルチモーダルモデル(lmm)の安全性は未検討のままである。
本研究では,オープンソースのLMMをジェイルブレイクするためにクエリ関連画像を利用する新しい視覚的プロンプト攻撃を提案する。
提案手法は,拡散モデルにより生成された画像と,悪意のあるクエリから抽出したキーワードに基づいてテキストをタイポグラフィとして表示する画像から合成画像を生成する。
大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。
オープンソースのLMMにおけるこの脆弱性の程度を評価するため,提案手法を用いて,合計5,040のテキストイメージ対を持つ13のシナリオを含む実質的なデータセットを作成した。
本データセットを用いた12個の近縁LMMの評価は,既存のマルチモーダルモデルの攻撃に対する脆弱性を示す。
この発見は、潜在的に悪意のあるエクスプロイトに対するオープンソースのLMMの安全性対策を強化し、強化するための共同努力の必要性を強調している。
リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。
本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文 参考訳(メタデータ) (2024-04-08T07:54:18Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。