論文の概要: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.09047v1
- Date: Fri, 11 Oct 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:58:09.762177
- Title: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models
- Title(参考訳): 視覚・言語モデルによる安全アライメント劣化の解明と軽減
- Authors: Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba,
- Abstract要約: VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
- 参考スコア(独自算出の注目度): 26.83278034227966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ''safety alignment degradation'' in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.
- Abstract(参考訳): VLM(Vision-Language Models)の安全アライメント能力は、LLMのバックボーンと比べてビジョンモジュールの統合によって劣化する傾向にある。
本稿では、この現象を「安全アライメント劣化」と呼び、VLMに視覚モダリティを導入する際に生じる表現ギャップから課題が生じることを示す。
特に、マルチモーダル入力の表現は、LLMのバックボーンが最適化した分布を表すテキストのみの入力からずれていることを示す。
同時に、テキスト埋め込み空間内で開発された安全アライメント機能は、この新しいマルチモーダル表現空間への転送に成功しなかった。
安全アライメントの劣化を低減するため,VLMのLLMバックボーンに内在する安全アライメント能力の回復と,VLMの機能的機能の同時維持を両立させる推論時間表現介入手法であるCross-Modality Representation Manipulation (CMRM)を導入する。
実験の結果,本研究の枠組みは,付加訓練を必要とせずとも,LLMバックボーンから受け継いだアライメント能力が,訓練前のVLMの流速や言語能力に最小限の影響を伴って,著しく回復することが示された。
具体的には、マルチモーダル入力におけるLLaVA-7Bの安全性の低いレートは、推論時間の介入だけで61.53%から3.15%に削減できる。
WARNING: 有害な言語や有害な言語の例を含む。
関連論文リスト
- Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。
VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。
本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文 参考訳(メタデータ) (2025-02-14T08:44:43Z) - Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。
本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。
我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文 参考訳(メタデータ) (2025-01-24T06:17:22Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [28.008884416277954]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。
提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文 参考訳(メタデータ) (2024-11-18T13:01:57Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。