論文の概要: MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.17600v2
- Date: Tue, 12 Mar 2024 04:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:15:22.592107
- Title: MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models
- Title(参考訳): MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク
- Authors: Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao
- Abstract要約: 我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 44.1948821279342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The security concerns surrounding Large Language Models (LLMs) have been
extensively explored, yet the safety of Multimodal Large Language Models
(MLLMs) remains understudied. In this paper, we observe that Multimodal Large
Language Models (MLLMs) can be easily compromised by query-relevant images, as
if the text query itself were malicious. To address this, we introduce
MM-SafetyBench, a comprehensive framework designed for conducting
safety-critical evaluations of MLLMs against such image-based manipulations. We
have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040
text-image pairs. Our analysis across 12 state-of-the-art models reveals that
MLLMs are susceptible to breaches instigated by our approach, even when the
equipped LLMs have been safety-aligned. In response, we propose a
straightforward yet effective prompting strategy to enhance the resilience of
MLLMs against these types of attacks. Our work underscores the need for a
concerted effort to strengthen and enhance the safety measures of open-source
MLLMs against potential malicious exploits. The resource is available at
\href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
- Abstract(参考訳): LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。
本稿では,Multimodal Large Language Models (MLLM) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に妥協できることを示す。
そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。
13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。
12の最先端モデルを対象に分析を行った結果,mllmは安全対策を講じた場合でも,侵入の影響を受けやすいことが明らかとなった。
そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。
我々の研究は、オープンソースmllmの潜在的な悪用に対する安全対策を強化し、強化するための協力的な取り組みの必要性を強調している。
リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。
関連論文リスト
- Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety of Multimodal Large Language Models on Images and Text [36.44982556551557]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。