Fugu-MT 論文翻訳(概要): Understanding and Rectifying Safety Perception Distortion in VLMs

論文の概要: Understanding and Rectifying Safety Perception Distortion in VLMs

arxiv url: http://arxiv.org/abs/2502.13095v1
Date: Tue, 18 Feb 2025 18:06:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.117741
Title: Understanding and Rectifying Safety Perception Distortion in VLMs
Title（参考訳）: VLMにおける安全知覚歪みの理解と定量化
Authors: Xiaohan Zou, Jian Kang, George Kesidis, Lu Lin,
Abstract要約: 視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
参考スコア（独自算出の注目度）: 19.239094089025095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies reveal that vision-language models (VLMs) become more susceptible to harmful requests and jailbreak attacks after integrating the vision modality, exhibiting greater vulnerability than their text-only LLM backbones. To uncover the root cause of this phenomenon, we conduct an in-depth analysis and identify a key issue: multimodal inputs introduce an modality-induced activation shift toward a "safer" direction compared to their text-only counterparts, leading VLMs to systematically overestimate the safety of harmful inputs. We refer to this issue as safety perception distortion. To mitigate such distortion, we propose Activation Shift Disentanglement and Calibration (ShiftDC), a training-free method that decomposes and calibrates the modality-induced activation shift to reduce the impact of modality on safety. By isolating and removing the safety-relevant component, ShiftDC restores the inherent safety alignment of the LLM backbone while preserving the vision-language capabilities of VLMs. Empirical results demonstrate that ShiftDC significantly enhances alignment performance on safety benchmarks without impairing model utility.
Abstract（参考訳）: 近年の研究では、視覚モダリティの統合により、視覚言語モデル(VLM)が有害な要求やジェイルブレイク攻撃の影響を受けやすくなり、テキストのみのLLMバックボーンよりも脆弱性が大きいことが示されている。マルチモーダル入力は、テキストのみの入力に比べて、モダリティによるアクティベーションシフトを「サファー」方向に導入し、VLMは有害入力の安全性を体系的に過大評価する。我々はこの問題を安全知覚歪みと呼ぶ。このような歪みを軽減するために,モダリティによるアクティベーションシフトを分解・校正し,モダリティが安全に与える影響を低減するトレーニングフリーな手法であるActivation Shift Disentanglement and Calibration(ShiftDC)を提案する。安全関連成分の分離と除去により、ShiftDCは、VLMの視覚言語能力を維持しながら、LLMバックボーンの固有の安全アライメントを復元する。実験の結果,ShiftDCはモデルの有用性を損なうことなく,安全性ベンチマークのアライメント性能を大幅に向上することが示された。

関連論文リスト

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-03-24T20:41:57Z)
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning [23.71517734919702]
視覚言語モデル(VLM)は多モード入力を用いた生成モデルにおいて顕著な進歩を遂げている。現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
論文参考訳（メタデータ） (2025-03-14T19:52:08Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。 HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文参考訳（メタデータ） (2025-02-20T17:14:34Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文参考訳（メタデータ） (2025-01-24T06:17:22Z)
Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models [26.83278034227966]
VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。 VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
論文参考訳（メタデータ） (2024-10-11T17:59:31Z)
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応) 安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文参考訳（メタデータ） (2024-10-10T03:12:03Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。