Fugu-MT 論文翻訳(概要): Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

論文の概要: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.09047v1
Date: Fri, 11 Oct 2024 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:58:09.762177
Title: Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models
Title（参考訳）: 視覚・言語モデルによる安全アライメント劣化の解明と軽減
Authors: Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba,
Abstract要約: VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。 VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
参考スコア（独自算出の注目度）: 26.83278034227966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ''safety alignment degradation'' in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.
Abstract（参考訳）: VLM(Vision-Language Models)の安全アライメント能力は、LLMのバックボーンと比べてビジョンモジュールの統合によって劣化する傾向にある。本稿では、この現象を「安全アライメント劣化」と呼び、VLMに視覚モダリティを導入する際に生じる表現ギャップから課題が生じることを示す。特に、マルチモーダル入力の表現は、LLMのバックボーンが最適化した分布を表すテキストのみの入力からずれていることを示す。同時に、テキスト埋め込み空間内で開発された安全アライメント機能は、この新しいマルチモーダル表現空間への転送に成功しなかった。安全アライメントの劣化を低減するため,VLMのLLMバックボーンに内在する安全アライメント能力の回復と,VLMの機能的機能の同時維持を両立させる推論時間表現介入手法であるCross-Modality Representation Manipulation (CMRM)を導入する。実験の結果,本研究の枠組みは,付加訓練を必要とせずとも,LLMバックボーンから受け継いだアライメント能力が,訓練前のVLMの流速や言語能力に最小限の影響を伴って,著しく回復することが示された。具体的には、マルチモーダル入力におけるLLaVA-7Bの安全性の低いレートは、推論時間の介入だけで61.53%から3.15%に削減できる。 WARNING: 有害な言語や有害な言語の例を含む。

関連論文リスト

Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap [43.31975448647118]
本研究では,モダリティギャップの量とビジョン・ランゲージ・モデルの安全性との相関性が高いことを示す。この観察から着想を得た本研究では,事前学習時のモダリティギャップを低減するための正規化を提案する。本手法は,LVLMの安全性を著しく向上させ,性能を損なうことなく安全性を最大16.3%向上させ,既存の防御を最大18.2%向上させることができる。
論文参考訳（メタデータ） (2025-05-30T04:40:08Z)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-03-24T20:41:57Z)
Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文参考訳（メタデータ） (2025-02-18T18:06:48Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文参考訳（メタデータ） (2025-01-24T06:17:22Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [21.441662865727448]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文参考訳（メタデータ） (2024-11-18T13:01:57Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文参考訳（メタデータ） (2024-06-24T05:13:19Z)
Cross-Modal Safety Alignment: Is textual unlearning all you need? [36.29740845754985]
テキスト領域のみの未学習は、モダリティ間の安全アライメントに有効であることを示す。実験の結果,マルチモーダルデータセットを用いたアンラーニングでは潜在的なメリットは得られず,計算要求が大幅に増加することがわかった。
論文参考訳（メタデータ） (2024-05-27T20:29:13Z)
Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文参考訳（メタデータ） (2024-05-22T12:21:27Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。 ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文参考訳（メタデータ） (2024-03-14T17:03:04Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。