論文の概要: Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs
- arxiv url: http://arxiv.org/abs/2503.00037v1
- Date: Tue, 25 Feb 2025 06:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:35.505826
- Title: Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs
- Title(参考訳): LVLMにおける連続多モードアライメントによる毒性画像に対するゼロショット防御
- Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun,
- Abstract要約: LVLM固有のマルチモーダルアライメントを利用してゼロショット有毒画像検出を行う軽量なSafeCLIPを提案する。
実験の結果、SafeCLIPの防衛成功率は66.9%で、偽陽性率は3.2%、オーバーヘッドは7.2%であった。
我々の研究は、本質的なマルチモーダルアライメントを活用することで、効率よく低コストなLVLM安全性が得られることを示した。
- 参考スコア(独自算出の注目度): 10.463762448166714
- License:
- Abstract: Large Vision-Language Models (LVLMs) have made significant strides in multimodal comprehension, thanks to extensive pre-training and fine-tuning on large-scale visual datasets. However, despite their robust textual safety mechanisms, they remain vulnerable to harmful visual inputs. Existing safeguards-typically relying on pre-filtering or fine-tuning-incur high costs and diminish overall utility. To address this critical vulnerability, we introduce SafeCLIP, a lightweight method that leverages LVLMs inherent multimodal alignment for zero-shot toxic image detection. By projecting CLIPs discarded CLS token into its text space and matching it with toxic descriptors, SafeCLIP detects harmful content without any architectural changes-adding minimal latency and enabling dynamic safety corrections during inference and fine-tuning.Experiments show that SafeCLIP achieves a 66.9% defense success rate with only 3.2% false positive rate and 7.2% overhead. In contrast, state-of-the-art methods achieve 52.9% success but have a 10.7% false positive rate and 210% overhead. Our work demonstrates that leveraging inherent multimodal alignment can yield efficient, low-cost LVLM safety. Code is available at anonymous.4open.science/r/safeclip-2C01.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、大規模なビジュアルデータセットの事前トレーニングと微調整によって、マルチモーダル理解において大きな進歩を遂げている。
しかし、その頑丈なテキスト安全性メカニズムにもかかわらず、有害な視覚入力に弱いままである。
既存のセーフガードは、通常、フィルター前や微調整時の高コストに依存し、全体の実用性を低下させる。
この致命的な脆弱性に対処するために,LVLM固有のマルチモーダルアライメントを利用してゼロショット有害画像検出を行う軽量なSafeCLIPを導入する。
CLIPを破棄したCLSトークンをテキスト空間に投影し、有害な記述子とマッチングすることにより、SafeCLIPはアーキテクチャ上の変更なしに有害なコンテンツを検出し、最小のレイテンシを追加し、推論と微調整の間に動的に安全性の修正を可能にする。実験の結果、SafeCLIPは66.9%の防衛成功率を達成し、偽陽性率がわずか3.2%、オーバーヘッドが7.2%であった。
対照的に、最先端の手法は52.9%の成功を達成しているが、10.7%の偽陽性率と210%のオーバーヘッドがある。
我々の研究は、本質的なマルチモーダルアライメントを活用することで、効率よく低コストなLVLM安全性が得られることを示した。
コードは anonymous.4open.science/r/safeclip-2C01 で利用可能である。
関連論文リスト
- HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning [13.802845998402677]
マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
論文 参考訳(メタデータ) (2024-12-29T08:09:20Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts [14.33139608409507]
We propose FigStep, a simple yet effective black-box jailbreak algorithm against LVLMs。
FigStepは、禁止されたコンテンツをタイポグラフィーで画像に変換し、安全アライメントをバイパスする。
我々の研究は、現在のLVLMがジェイルブレイク攻撃に対して脆弱であることを明らかにし、新しいモダリティ間の安全アライメント技術の必要性を強調している。
論文 参考訳(メタデータ) (2023-11-09T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。