論文の概要: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.09047v1
- Date: Fri, 11 Oct 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:58:09.762177
- Title: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models
- Title(参考訳): 視覚・言語モデルによる安全アライメント劣化の解明と軽減
- Authors: Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba,
- Abstract要約: VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
- 参考スコア(独自算出の注目度): 26.83278034227966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ''safety alignment degradation'' in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.
- Abstract(参考訳): VLM(Vision-Language Models)の安全アライメント能力は、LLMのバックボーンと比べてビジョンモジュールの統合によって劣化する傾向にある。
本稿では、この現象を「安全アライメント劣化」と呼び、VLMに視覚モダリティを導入する際に生じる表現ギャップから課題が生じることを示す。
特に、マルチモーダル入力の表現は、LLMのバックボーンが最適化した分布を表すテキストのみの入力からずれていることを示す。
同時に、テキスト埋め込み空間内で開発された安全アライメント機能は、この新しいマルチモーダル表現空間への転送に成功しなかった。
安全アライメントの劣化を低減するため,VLMのLLMバックボーンに内在する安全アライメント能力の回復と,VLMの機能的機能の同時維持を両立させる推論時間表現介入手法であるCross-Modality Representation Manipulation (CMRM)を導入する。
実験の結果,本研究の枠組みは,付加訓練を必要とせずとも,LLMバックボーンから受け継いだアライメント能力が,訓練前のVLMの流速や言語能力に最小限の影響を伴って,著しく回復することが示された。
具体的には、マルチモーダル入力におけるLLaVA-7Bの安全性の低いレートは、推論時間の介入だけで61.53%から3.15%に削減できる。
WARNING: 有害な言語や有害な言語の例を含む。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Cross-Modal Safety Alignment: Is textual unlearning all you need? [36.29740845754985]
テキスト領域のみの未学習は、モダリティ間の安全アライメントに有効であることを示す。
実験の結果,マルチモーダルデータセットを用いたアンラーニングでは潜在的なメリットは得られず,計算要求が大幅に増加することがわかった。
論文 参考訳(メタデータ) (2024-05-27T20:29:13Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。