論文の概要: Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
- arxiv url: http://arxiv.org/abs/2505.15389v1
- Date: Wed, 21 May 2025 11:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.529565
- Title: Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
- Title(参考訳): 視覚言語モデルは野生で安全か? : ミームベースのベンチマーク研究
- Authors: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu,
- Abstract要約: 一般ユーザーが共有するミーム画像と対面した場合、現在の視覚言語モデルはどのくらい安全か?
MemeSafetyBenchは、有害な命令と良質な命令の両方で、実際のミームイメージをペアリングするベンチマークである。
視覚言語モデルでは、合成画像やタイポグラフィ画像よりも、ミームベースの有害なプロンプトの脆弱性が大きいことが判明した。
- 参考スコア(独自算出の注目度): 14.308220140623247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet most evaluations rely on artificial images. This study asks: How safe are current VLMs when confronted with meme images that ordinary users share? To investigate this question, we introduce MemeSafetyBench, a 50,430-instance benchmark pairing real meme images with both harmful and benign instructions. Using a comprehensive safety taxonomy and LLM-based instruction generation, we assess multiple VLMs across single and multi-turn interactions. We investigate how real-world memes influence harmful outputs, the mitigating effects of conversational context, and the relationship between model scale and safety metrics. Our findings demonstrate that VLMs show greater vulnerability to meme-based harmful prompts than to synthetic or typographic images. Memes significantly increase harmful responses and decrease refusals compared to text-only inputs. Though multi-turn interactions provide partial mitigation, elevated vulnerability persists. These results highlight the need for ecologically valid evaluations and stronger safety mechanisms.
- Abstract(参考訳): 視覚言語モデル(VLM)の迅速な展開は安全性のリスクを増大させるが、ほとんどの評価は人工画像に依存している。
通常のユーザが共有するミームイメージに対して,現在のVLMはどの程度安全か?
そこで本研究では,50,430-instanceベンチマークであるMemeSafetyBenchを紹介した。
包括的安全分類法とLCMに基づく命令生成を用いて、単ターンおよび多ターンインタラクションにおける複数のVLMを評価する。
実世界のミームが有害なアウトプットに与える影響,会話コンテキストの緩和効果,モデル尺度と安全性指標の関係について検討する。
以上の結果から,VLMは合成画像やタイポグラフィ画像よりも,ミームによる有害なプロンプトの脆弱性が大きいことが示唆された。
ミームはテキストのみの入力に比べて有害な反応を著しく増加させ、拒絶を減少させる。
マルチターン相互作用は部分的な緩和をもたらすが、高い脆弱性は持続する。
これらの結果は、生態学的に有効な評価とより強力な安全メカニズムの必要性を浮き彫りにしている。
関連論文リスト
- Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - VLSBench: Unveiling Visual Leakage in Multimodal Safety [39.344623032631475]
MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
これまでの研究は、テキストアンラーニングを用いてMLLMを整列させ、画像テキストペアに整列したMLLMと同等の安全性を実現するという、直感的な現象を示している。
論文 参考訳(メタデータ) (2024-11-29T18:56:37Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse [14.571295331012331]
我々は、暗黙のヘイトスピーチ、サイバーいじめ、性差別などのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介した。
我々はLMMがヘイトフルネス、軽蔑、攻撃性、皮肉、有害なコンテンツを正確に評価する能力について検討した。
LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-03T03:28:55Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。