論文の概要: PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions
- arxiv url: http://arxiv.org/abs/2409.05076v1
- Date: Sun, 8 Sep 2024 12:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:30:04.033541
- Title: PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions
- Title(参考訳): PIP:無関係プローブ質問の注意パターンを用いた大規模視線モデルにおける逆例の検出
- Authors: Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Yu Wang,
- Abstract要約: LVLM(Large Vision-Language Models)はその強力なマルチモーダル能力を実証している。
敵は、よく設計された敵の例を用いて、LVLMの問題を誘発できるため、深刻な安全上の問題にも直面している。
ランダムに選択された1つの無関係なプローブ質問の注意パターンを利用する、PIPと呼ばれる非従来的手法を提案する。
ブラックボックス攻撃やオープンデータセットシナリオの下でも、私たちのPIPは単純なSVMと組み合わせて、98%以上のリコールと90%以上の精度を実現しています。
- 参考スコア(独自算出の注目度): 30.168859389626505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated their powerful multimodal capabilities. However, they also face serious safety problems, as adversaries can induce robustness issues in LVLMs through the use of well-designed adversarial examples. Therefore, LVLMs are in urgent need of detection tools for adversarial examples to prevent incorrect responses. In this work, we first discover that LVLMs exhibit regular attention patterns for clean images when presented with probe questions. We propose an unconventional method named PIP, which utilizes the attention patterns of one randomly selected irrelevant probe question (e.g., "Is there a clock?") to distinguish adversarial examples from clean examples. Regardless of the image to be tested and its corresponding question, PIP only needs to perform one additional inference of the image to be tested and the probe question, and then achieves successful detection of adversarial examples. Even under black-box attacks and open dataset scenarios, our PIP, coupled with a simple SVM, still achieves more than 98% recall and a precision of over 90%. Our PIP is the first attempt to detect adversarial attacks on LVLMs via simple irrelevant probe questions, shedding light on deeper understanding and introspection within LVLMs. The code is available at https://github.com/btzyd/pip.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はその強力なマルチモーダル能力を実証している。
しかし、敵はよく設計された敵の例を用いて、LVLMの堅牢性問題を引き起こすことができるため、深刻な安全上の問題にも直面している。
したがって、LVLMは不適切な応答を防止するために、敵のサンプルを検出するツールを緊急に必要としている。
本研究では,LVLMがプローブ質問を提示した場合に,クリーンな画像に対して定期的に注意パターンを示すことを最初に発見する。
本稿では, ランダムに選択された無関係なプローブ質問(例えば, 「時計はあるのか?」など)の注意パターンを利用して, 敵の例とクリーンな例とを区別する, PIP と呼ばれる非従来的手法を提案する。
テスト対象のイメージとそれに対応する質問に関係なく、PIPはテスト対象のイメージとプローブ質問の1つの追加推論を実行し、敵のサンプルの検出を成功させるだけでよい。
ブラックボックス攻撃やオープンデータセットシナリオの下でも、私たちのPIPは単純なSVMと組み合わせて、98%以上のリコールと90%以上の精度を実現しています。
我々のPIPは、単純な無関係なプローブ質問を通じてLVLMに対する敵攻撃を検出し、LVLM内の深い理解とイントロスペクションに光を当てる最初の試みである。
コードはhttps://github.com/btzyd/pip.comで公開されている。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Pairwise Similarity Learning is SimPLE [104.14303849615496]
我々は、汎用的で重要な学習問題、ペアワイズ類似性学習(PSL)に焦点を当てる。
PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。
我々は、機能/プロキシの正規化も角マージンも必要としない、SimPLEと呼ばれる驚くほど単純なプロキシフリー手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T23:56:47Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。