Fugu-MT 論文翻訳(概要): Query-Relevant Images Jailbreak Large Multi-Modal Models

論文の概要: Query-Relevant Images Jailbreak Large Multi-Modal Models

arxiv url: http://arxiv.org/abs/2311.17600v1
Date: Wed, 29 Nov 2023 12:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 21:18:23.015521
Title: Query-Relevant Images Jailbreak Large Multi-Modal Models
Title（参考訳）: クエリ関連画像 jailbreak 大規模マルチモーダルモデル
Authors: Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
Abstract要約: 我々は、クエリ関連画像を利用して、オープンソースのLMMをジェイルブレイクする新しい視覚的プロンプトアタックを提案する。本手法は,拡散モデルにより生成された画像と,テキストをタイポグラフィとして表示する画像から合成画像を生成する。大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。
参考スコア（独自算出の注目度）: 36.44982556551557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Warning: This paper contains examples of harmful language and images, and reader discretion is recommended. The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Large Multi-Modal Models (LMMs) remains understudied. In our study, we present a novel visual prompt attack that exploits query-relevant images to jailbreak the open-source LMMs. Our method creates a composite image from one image generated by diffusion models and another that displays the text as typography, based on keywords extracted from a malicious query. We show LLMs can be easily attacked by our approach, even if the employed Large Language Models are safely aligned. To evaluate the extent of this vulnerability in open-source LMMs, we have compiled a substantial dataset encompassing 13 scenarios with a total of 5,040 text-image pairs, using our presented attack technique. Our evaluation of 12 cutting-edge LMMs using this dataset shows the vulnerability of existing multi-modal models on adversarial attacks. This finding underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source LMMs against potential malicious exploits. The resource is available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
Abstract（参考訳）: 警告: 本論文は有害な言語や画像の例を含み, 読者の判断を推奨する。大規模言語モデル(llm)に関するセキュリティの懸念は広く検討されてきたが、大規模マルチモーダルモデル(lmm)の安全性は未検討のままである。本研究では,オープンソースのLMMをジェイルブレイクするためにクエリ関連画像を利用する新しい視覚的プロンプト攻撃を提案する。提案手法は,拡散モデルにより生成された画像と,悪意のあるクエリから抽出したキーワードに基づいてテキストをタイポグラフィとして表示する画像から合成画像を生成する。大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。オープンソースのLMMにおけるこの脆弱性の程度を評価するため,提案手法を用いて,合計5,040のテキストイメージ対を持つ13のシナリオを含む実質的なデータセットを作成した。本データセットを用いた12個の近縁LMMの評価は,既存のマルチモーダルモデルの攻撃に対する脆弱性を示す。この発見は、潜在的に悪意のあるエクスプロイトに対するオープンソースのLMMの安全性対策を強化し、強化するための共同努力の必要性を強調している。リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。

関連論文リスト

Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
Towards Harmless Multimodal Assistants with Blind Preference Optimization [49.044737689613164]
MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。 MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。我々は、無害なマルチモーダルアシスタントに対してMMSafe-PO選好データセットを構築し、マルチモーダル命令、会話形式、人間のフィードバックからのランク付けされたペア応答を特徴付ける。
論文参考訳（メタデータ） (2025-03-18T12:02:38Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文参考訳（メタデータ） (2024-04-08T07:54:18Z)
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。 ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文参考訳（メタデータ） (2024-03-14T17:03:04Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。 MLLMの安全性を評価するための評価データセットと指標について概説する。次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文参考訳（メタデータ） (2024-02-01T05:57:10Z)
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。 MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文参考訳（メタデータ） (2024-01-05T17:05:42Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。