論文の概要: VLSBench: Unveiling Visual Leakage in Multimodal Safety
- arxiv url: http://arxiv.org/abs/2411.19939v1
- Date: Fri, 29 Nov 2024 18:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:25.450182
- Title: VLSBench: Unveiling Visual Leakage in Multimodal Safety
- Title(参考訳): VLSBench:マルチモーダル・セーフティで視覚漏れを発生させる
- Authors: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao,
- Abstract要約: これまでの研究では、MLLMの整列にテキストアンラーニングを用いることで、画像とテキストのペアで訓練されたMLLMと同等の安全性を実現することが示されている。
このような直感的現象を説明するため、既存のマルチモーダル安全ベンチマークにおいて、視覚的安全情報漏洩(VSIL)問題を発見した。
マルチモーダル画像リークレス安全性ベンチマーク (VLSBench) を構築し,2.4k画像テキストペアによる画像からテキストへの視覚的安全性リークを防止する。
- 参考スコア(独自算出の注目度): 39.344623032631475
- License:
- Abstract: Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench
- Abstract(参考訳): MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
意外なことに、以前の研究は、テキストアンラーニングを使ってMLLMを整列させることで、画像とテキストのペアで訓練されたMLLMと同等の安全性を実現するという、直感に反する現象を示している。
このような直感的現象を説明するため、既存のマルチモーダル安全ベンチマークにおいて、画像内の潜在的危険でセンシティブなコンテンツがテキストクエリで明らかになった視覚的安全情報漏洩(VSIL)問題を発見した。
このようにして、MLLMはこれらのセンシティブなテキストイメージクエリをテキストクエリに従って簡単に拒否することができる。
しかし、VSILのない画像テキストペアは現実のシナリオでは一般的であり、既存のマルチモーダル安全性ベンチマークでは見過ごされている。
そこで本稿では,VLSBench (Multimodal visual leakless safety benchmark) を構築し,2.4kの画像テキストペアによる画像からテキストへの視覚的安全性の漏洩を防止する。
実験の結果、VLSBenchはLLaVA、Qwen2-VL、Llama3.2-Vision、GPT-4oなど、オープンソースとオープンソース両方のMLLMにとって大きな課題であることが示された。
本研究では、テキストアライメントがVSILのマルチモーダルセーフティシナリオに十分であることを示す一方、マルチモーダルアライメントはVSILなしでのマルチモーダルセーフティシナリオに対してより有望なソリューションであることを示す。
コードとデータをご覧ください。 http://hxhcreate.github.io/VLSBench
関連論文リスト
- SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings [32.661752596399204]
MLLM(Multimodal Large Language Models)は、重大なセキュリティ上の脆弱性を持つ。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
勾配更新による追加モダリティの埋め込みを最適化するSEA(Synthetic Embedding augmented safety alignment)を提案する。
論文 参考訳(メタデータ) (2025-02-18T05:57:35Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MSTS: A Multimodal Safety Test Suite for Vision-Language Models [35.86658426268927]
視覚言語モデル(VLM)は、チャットアシスタントやその他の消費者向けAIアプリケーションにますます統合されている。
明確な危険にもかかわらず、VLMの安全性とマルチモーダル入力によって生じる新たなリスクを評価する研究はほとんどない。
MSTSは、40のきめ細かい危険カテゴリーにわたる400の試験プロンプトから構成される。
我々は、MSTSを10言語に翻訳し、非英語のプロンプトが安全でないモデル応答率を増加させることを示す。
論文 参考訳(メタデータ) (2025-01-17T09:22:35Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。