論文の概要: Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap
- arxiv url: http://arxiv.org/abs/2505.24208v1
- Date: Fri, 30 May 2025 04:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.772853
- Title: Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap
- Title(参考訳): プレトレーニングモードギャップ低減によるVLM安全のためのブートストラップLDMロバスト性
- Authors: Wenhan Yang, Spencer Stice, Ali Payani, Baharan Mirzasoleiman,
- Abstract要約: 本研究では,モダリティギャップの量とビジョン・ランゲージ・モデルの安全性との相関性が高いことを示す。
この観察から着想を得た本研究では,事前学習時のモダリティギャップを低減するための正規化を提案する。
本手法は,LVLMの安全性を著しく向上させ,性能を損なうことなく安全性を最大16.3%向上させ,既存の防御を最大18.2%向上させることができる。
- 参考スコア(独自算出の注目度): 43.31975448647118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring Vision-Language Models (VLMs) generate safe outputs is crucial for their reliable deployment. However, LVLMs suffer from drastic safety degradation compared to their LLM backbone. Even blank or irrelevant images can trigger LVLMs to generate harmful responses to prompts that would otherwise be refused in text-only contexts. The modality gap between image and text representations has been recently hypothesized to contribute to safety degradation of LVLMs. However, if and how the amount of modality gap affects LVLMs' safety is not studied. In this work, we show that the amount of modality gap is highly inversely correlated with VLMs' safety. Then, we show that this modality gap is introduced during pretraining LVLMs and persists through fine-tuning. Inspired by this observation, we propose a regularization to reduce the modality gap during pretraining. Our extensive experiments on LLaVA v1.5, ShareGPT4V, and MiniGPT-4 show that our method substantially improves safety alignment of LVLMs, reducing unsafe rate by up to 16.3% without compromising performance, and can further boost existing defenses by up to 18.2%.
- Abstract(参考訳): VLM(Vision-Language Models)が安全なアウトプットを生成することは、信頼性の高いデプロイメントに不可欠である。
しかし、LVLMはLLMのバックボーンに比べて大幅に安全性が低下する。
空白画像や無関係画像でさえLVLMをトリガーして、テキストのみのコンテキストで拒否されるプロンプトに対する有害な応答を発生させる。
画像とテキストの表現のモダリティギャップは、近年、LVLMの安全性低下に寄与すると仮定されている。
しかし、モダリティギャップの量がLVLMの安全性にどのように影響するかは研究されていない。
本研究では, モダリティギャップの量とVLMの安全性との相関性が高いことを示す。
そして,このモダリティギャップは,LVLMの事前学習中に導入され,微調整によって持続することを示す。
この観察から着想を得た本研究では,事前学習時のモダリティギャップを低減するための正規化を提案する。
LLaVA v1.5、ShareGPT4V、MiniGPT-4の広範な実験により、LVLMの安全性は大幅に向上し、性能を損なうことなく安全性を最大16.3%低下させ、既存の防御を最大18.2%向上させることができた。
関連論文リスト
- Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning [23.71517734919702]
視覚言語モデル(VLM)は多モード入力を用いた生成モデルにおいて顕著な進歩を遂げている。
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。
VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。
本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文 参考訳(メタデータ) (2025-02-14T08:44:43Z) - Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models [26.83278034227966]
VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:59:31Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。