Fugu-MT 論文翻訳(概要): MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

論文の概要: MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2311.17600v3
Date: Sat, 8 Jun 2024 15:32:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 04:28:28.971567
Title: MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
Title（参考訳）: MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク
Authors: Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao,
Abstract要約: 我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 41.708401515627784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
Abstract（参考訳）: LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。本稿では,Multimodal Large Language Models (MLLMs) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に損なわれることを観察する。そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。 13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。 12種類の最先端モデルから分析したところ、MLLMは、装備されたLCMが安全に整合している場合でも、我々のアプローチによる侵害の影響を受けやすいことが判明した。そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。

関連論文リスト

When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文参考訳（メタデータ） (2025-09-15T15:40:58Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
Towards Harmless Multimodal Assistants with Blind Preference Optimization [49.044737689613164]
MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。 MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。我々は、無害なマルチモーダルアシスタントに対してMMSafe-PO選好データセットを構築し、マルチモーダル命令、会話形式、人間のフィードバックからのランク付けされたペア応答を特徴付ける。
論文参考訳（メタデータ） (2025-03-18T12:02:38Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文参考訳（メタデータ） (2024-04-08T07:54:18Z)
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。 ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文参考訳（メタデータ） (2024-03-14T17:03:04Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。 MLLMの安全性を評価するための評価データセットと指標について概説する。次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文参考訳（メタデータ） (2024-02-01T05:57:10Z)
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。 MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文参考訳（メタデータ） (2024-01-05T17:05:42Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。