論文の概要: VLSBench: Unveiling Visual Leakage in Multimodal Safety
- arxiv url: http://arxiv.org/abs/2411.19939v3
- Date: Sat, 17 May 2025 15:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.320542
- Title: VLSBench: Unveiling Visual Leakage in Multimodal Safety
- Title(参考訳): VLSBench:マルチモーダル・セーフティで視覚漏れを発生させる
- Authors: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao,
- Abstract要約: MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
これまでの研究は、テキストアンラーニングを用いてMLLMを整列させ、画像テキストペアに整列したMLLMと同等の安全性を実現するという、直感的な現象を示している。
- 参考スコア(独自算出の注目度): 39.344623032631475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counterintuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs aligned with image text pairs. To explain such a phenomenon, we discover a Visual Safety Information Leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky content in the image has been revealed in the textual query. Thus, MLLMs can easily refuse these sensitive image-text pairs according to textual queries only, leading to unreliable cross-modality safety evaluation of MLLMs. We also conduct a further comparison experiment between textual alignment and multimodal alignment to highlight this drawback. To this end, we construct multimodal Visual Leakless Safety Bench (VLSBench) with 2.2k image-text pairs through an automated data pipeline. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, e.g., LLaVA, Qwen2-VL and GPT-4o. Besides, we empirically compare textual and multimodal alignment methods on VLSBench and find that textual alignment is effective enough for multimodal safety scenarios with VSIL, while multimodal alignment is preferable for safety scenarios without VSIL. Code and data are released under https://github.com/AI45Lab/VLSBench
- Abstract(参考訳): MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
意外なことに、以前の研究は、テキストアンラーニングを用いてMLLMを整列させ、画像テキストペアに整列したMLLMと同等の安全性を実現するという、直感的な現象を示している。
このような現象を説明するために、既存のマルチモーダル安全ベンチマークで視覚安全情報漏洩(VSIL)問題を発見した。
したがって、MLLMは、テキストクエリのみに基づいて、これらのセンシティブな画像テキストペアを簡単に拒否することができ、MLLMの信頼性の低い相互モダリティ安全性評価に繋がる。
また、テキストアライメントとマルチモーダルアライメントのさらなる比較実験を行い、この欠点を強調した。
この目的のために、自動データパイプラインを介して2.2kイメージテキストペアでマルチモーダルなVisual Leakless Safety Bench(VLSBench)を構築する。
実験結果から,VLSBenchはオープンソースおよびオープンソースMLLM,eg,LLaVA,Qwen2-VL,GPT-4oにとって大きな課題であることがわかった。
また,VLSBench上のテキストアライメント法とマルチモーダルアライメント法を実証的に比較した結果,マルチモーダルアライメントがVSILのマルチモーダル安全シナリオに十分有効であるのに対して,マルチモーダルアライメントはVSILのない安全シナリオに好適であることがわかった。
コードとデータはhttps://github.com/AI45Lab/VLSBenchでリリースされる
関連論文リスト
- SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings [32.661752596399204]
MLLM(Multimodal Large Language Models)は、重大なセキュリティ上の脆弱性を持つ。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
勾配更新による追加モダリティの埋め込みを最適化するSEA(Synthetic Embedding augmented safety alignment)を提案する。
論文 参考訳(メタデータ) (2025-02-18T05:57:35Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MSTS: A Multimodal Safety Test Suite for Vision-Language Models [35.86658426268927]
視覚言語モデル(VLM)は、チャットアシスタントやその他の消費者向けAIアプリケーションにますます統合されている。
明確な危険にもかかわらず、VLMの安全性とマルチモーダル入力によって生じる新たなリスクを評価する研究はほとんどない。
MSTSは、40のきめ細かい危険カテゴリーにわたる400の試験プロンプトから構成される。
我々は、MSTSを10言語に翻訳し、非英語のプロンプトが安全でないモデル応答率を増加させることを示す。
論文 参考訳(メタデータ) (2025-01-17T09:22:35Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。