論文の概要: QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.11038v1
- Date: Tue, 15 Apr 2025 10:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:39.870514
- Title: QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
- Title(参考訳): QAVA: 大規模ビジョンランゲージモデルに対するクエリ非依存のビジュアルアタック
- Authors: Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Zhanhui Kang, Yu Wang,
- Abstract要約: 特定の画像や質問を対象とする敵攻撃は、大きな視覚言語モデル(LVLM)を導き、誤った回答を与える。
問合せ非依存型視覚攻撃(QAVA)を導入し,不明確で未知の質問に対する誤った応答を生成する頑健な敵の例を作成することを目的とした。
本研究は,LVLMに対する視覚的敵対攻撃の範囲を広げ,これまで見過ごされていた脆弱性を明らかにする。
- 参考スコア(独自算出の注目度): 29.19909246476688
- License:
- Abstract: In typical multimodal tasks, such as Visual Question Answering (VQA), adversarial attacks targeting a specific image and question can lead large vision-language models (LVLMs) to provide incorrect answers. However, it is common for a single image to be associated with multiple questions, and LVLMs may still answer other questions correctly even for an adversarial image attacked by a specific question. To address this, we introduce the query-agnostic visual attack (QAVA), which aims to create robust adversarial examples that generate incorrect responses to unspecified and unknown questions. Compared to traditional adversarial attacks focused on specific images and questions, QAVA significantly enhances the effectiveness and efficiency of attacks on images when the question is unknown, achieving performance comparable to attacks on known target questions. Our research broadens the scope of visual adversarial attacks on LVLMs in practical settings, uncovering previously overlooked vulnerabilities, particularly in the context of visual adversarial threats. The code is available at https://github.com/btzyd/qava.
- Abstract(参考訳): VQA(Visual Question Answering)のような一般的なマルチモーダルタスクでは、特定の画像や質問を対象とする敵攻撃は、大きな視覚言語モデル(LVLM)を導き、誤った回答を提供する。
しかし、一つの画像が複数の質問に関連付けることは一般的であり、LVLMは特定の質問によって攻撃された敵画像であっても、他の質問に正しく答えることができる。
この問題に対処するために,未知の質問に対して不正確な応答を生成する頑健な敵の例を作成することを目的とした,クエリ非依存型視覚攻撃(QAVA)を導入する。
特定の画像や質問に焦点をあてた従来の敵攻撃と比較して、QAVAは質問が未知の場合には画像に対する攻撃の有効性と効率を著しく向上させ、既知のターゲット問題に対する攻撃に匹敵する性能を達成する。
本研究は,LVLMに対する視覚的敵意攻撃の範囲を広げ,特に視覚的敵意の文脈において,これまで見過ごされていた脆弱性を明らかにする。
コードはhttps://github.com/btzyd/qava.comから入手できる。
関連論文リスト
- Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models [6.649753747542211]
本稿では,新たな敵攻撃手法であるReplace-then-PerturbとContrastive-Advを提案する。
Replace-then-Perturbでは、まずテキスト誘導セグメンテーションモデルを用いて画像中の対象物を見つける。
これにより、元の画像の全体的な完全性を維持しつつ、所望のプロンプトに対応するターゲット画像を生成することができる。
論文 参考訳(メタデータ) (2024-11-01T04:50:08Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - QAIR: Practical Query-efficient Black-Box Attacks for Image Retrieval [56.51916317628536]
画像検索に対するクエリベースの攻撃について検討し,ブラックボックス設定下での対比例に対する堅牢性を評価する。
新たな関連性に基づく損失は、攻撃前後のトップk検索結果のセット類似度を測定して攻撃効果を定量化するように設計されている。
提案手法は,ブラックボックス設定による画像検索システムに対するクエリ数が少なく,高い攻撃成功率を達成できることを示す実験である。
論文 参考訳(メタデータ) (2021-03-04T10:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。