論文の概要: Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
- arxiv url: http://arxiv.org/abs/2412.12722v1
- Date: Tue, 17 Dec 2024 09:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:59.511425
- Title: Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
- Title(参考訳): 部分知覚スーパービジョンによる視覚攻撃に対するLVLMの防御
- Authors: Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong,
- Abstract要約: 近年、LVLM(Large Vision Language Models)の悪意ある注入や摂動画像に対する脆弱性に関する重大な懸念が提起されている。
DPS(Deefense through partial-Perception Supervision)と呼ばれるブラックボックス・トレーニング不要な手法を提案する。
DPSでは、攻撃時に部分的なイメージ理解に基づいて応答を調整することができ、クリーンな入力に対して元の応答を確実に維持することができる。
- 参考スコア(独自算出の注目度): 17.936420617404004
- License:
- Abstract: Recent studies have raised significant concerns regarding the vulnerability of Large Vision Language Models (LVLMs) to maliciously injected or perturbed input images, which can mislead their responses. Existing defense methods show that such vision attacks are sensitive to image modifications especially cropping, using majority voting across responses of modified images as corrected responses. However, these modifications often result in partial images and distort the semantics, which reduces response quality on clean images after voting. Instead of directly using responses from partial images for voting, we investigate using them to supervise the LVLM's responses to the original images. We propose a black-box, training-free method called DPS (Defense through Partial-Perception Supervision). In this approach, the model is prompted using the responses generated by a model that perceives only a partial image. With DPS, the model can adjust its response based on partial image understanding when under attack, while confidently maintaining its original response for clean input. Our findings show that the weak model can supervise the strong model: when faced with an attacked input, the strong model becomes less confident and adjusts its response based on the weak model's partial understanding, effectively defending against the attack. With clean input, it confidently maintains its original response. Empirical experiments show our method outperforms the baseline, cutting the average attack success rate by 76.3% across six datasets on three popular models.
- Abstract(参考訳): 近年、LVLM(Large Vision Language Models)による悪意ある入力画像の注入や摂動に対する脆弱性が懸念されている。
既存の防御手法では、このような視覚攻撃が画像修正、特に収穫に敏感であることを示し、修正された画像の反応を修正された応答として多数決した。
しかし、これらの修正は部分的なイメージをもたらし、セマンティクスを歪ませ、投票後のクリーンなイメージに対する応答品質を低下させる。
投票に部分画像からの反応を直接利用する代わりに,LVLMの原画像に対する応答を監督するためにそれを用いて検討する。
本稿では,DPS (Defense through partial-Perception Supervision) と呼ばれるブラックボックスでトレーニング不要な手法を提案する。
このアプローチでは、部分像のみを知覚するモデルによって生成された応答を用いてモデルが誘導される。
DPSでは、攻撃時に部分的なイメージ理解に基づいて応答を調整することができ、クリーンな入力に対して元の応答を確実に維持することができる。
攻撃された入力に直面すると、強いモデルは信頼性が低下し、弱いモデルの部分的理解に基づいて応答を調整し、攻撃に対して効果的に防御する。
クリーンな入力では、元の応答を自信を持って維持する。
実験により,本手法はベースラインを上回り,一般的な3つのモデル上での6つのデータセットに対して平均攻撃成功率を76.3%削減した。
関連論文リスト
- Adversarial Machine Learning: Attacking and Safeguarding Image Datasets [0.0]
本稿では、敵攻撃に対する畳み込みニューラルネットワーク(CNN)の脆弱性について検討し、その保護方法を検討する。
CNNは、最も一般的な画像データセットの4つに実装され、高いベースライン精度を実現した。
対戦訓練後のモデルに対するロバスト性はほとんどのレベルが達成されているが、敵の摂動に対するモデルの性能にはまだ若干の損失があるようだ。
論文 参考訳(メタデータ) (2025-01-31T22:32:38Z) - Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - A Person Re-identification Data Augmentation Method with Adversarial
Defense Effect [5.8377608127737375]
対角防御効果を有するReIDマルチモーダルデータ拡張法を提案する。
提案手法は,複数のデータセット上で良好に動作し,CVPR 2020 が提案する ReID に対する MS-SSIM 攻撃の防御に成功している。
論文 参考訳(メタデータ) (2021-01-21T12:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。