論文の概要: Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
- arxiv url: http://arxiv.org/abs/2504.01308v1
- Date: Wed, 02 Apr 2025 02:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:39.693103
- Title: Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
- Title(参考訳): 視覚言語モデルを守る:摂動型攻撃におけるガウス雑音に対する脆弱性の緩和
- Authors: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam,
- Abstract要約: VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
- 参考スコア(独自算出の注目度): 9.534098569545694
- License:
- Abstract: Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚情報を組み込むことで、Large Language Models(LLM)の機能を拡張するが、特にノイズや劣化した画像を処理する場合、ジェイルブレイク攻撃に弱いままである。
既存のVLMでは、このような攻撃を緩和するための訓練中にセキュリティ対策が採用されているが、ノイズ増大した視覚的入力に関連する脆弱性は見過ごされている。
本研究では,ノイズ増強トレーニングの欠如が重大なセキュリティギャップを生じていることを確認した。
この課題に対処するため、VLMの機能を維持しながら、攻撃成功率を低減させるノイズ増強された微調整と、整列/整列画像テキストペアを持つマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃を実現するため,DiffPure-VLMを提案する。
実験により, 拡散モデルの分布シフト特性は微調整VLMとよく一致し, 異なる強度の対向摂動を著しく緩和することがわかった。
データセットとコードはhttps://github.com/JarvisUSTC/DiffPure-RobustVLMで公開されている。
関連論文リスト
- Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Light-weight Fine-tuning Method for Defending Adversarial Noise in Pre-trained Medical Vision-Language Models [25.33637232484219]
微調整事前学習型視覚言語モデル(VLM)は、医用画像とテキスト描写相乗効果において顕著な能力を示した。
多くの事前トレーニングデータセットは、患者プライバシの懸念によって制限されており、下流のパフォーマンスに悪影響を及ぼす可能性のあるノイズを含む可能性がある。
本稿では,敵の攻撃を効果的に防御し,微調整時に上流の騒音の影響を是正する手法であるRAN(Creify Adversarial noise)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-02T23:48:43Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Stable Unlearnable Example: Enhancing the Robustness of Unlearnable
Examples via Stable Error-Minimizing Noise [31.586389548657205]
データにある種の知覚不能ノイズを加えることにより、モデルの一般化性能を著しく低下させる非学習不可能な例を提案する。
本稿では,時間を要する対向的摂動ではなく,ランダムな摂動に対する防御音を訓練する安定型誤り最小化ノイズ(SEM)を導入する。
SEMは、CIFAR-10、CIFAR-100、ImageNet Subset上で、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-22T01:43:57Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。