論文の概要: VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models
- arxiv url: http://arxiv.org/abs/2402.11083v1
- Date: Fri, 16 Feb 2024 21:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:52:40.263258
- Title: VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models
- Title(参考訳): VQAttack: 事前学習モデルによる視覚質問応答に対する変換可能な逆攻撃
- Authors: Ziyi Yin, Muchao Ye, Tianrong Zhang, Jiaqi Wang, Han Liu, Jinghui
Chen, Ting Wang, Fenglong Ma
- Abstract要約: 本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
- 参考スコア(独自算出の注目度): 58.21452697997078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a fundamental task in computer vision and
natural language process fields. Although the ``pre-training & finetuning''
learning paradigm significantly improves the VQA performance, the adversarial
robustness of such a learning paradigm has not been explored. In this paper, we
delve into a new problem: using a pre-trained multimodal source model to create
adversarial image-text pairs and then transferring them to attack the target
VQA models. Correspondingly, we propose a novel VQAttack model, which can
iteratively generate both image and text perturbations with the designed
modules: the large language model (LLM)-enhanced image attack and the
cross-modal joint attack module. At each iteration, the LLM-enhanced image
attack module first optimizes the latent representation-based loss to generate
feature-level image perturbations. Then it incorporates an LLM to further
enhance the image perturbations by optimizing the designed masked answer
anti-recovery loss. The cross-modal joint attack module will be triggered at a
specific iteration, which updates the image and text perturbations
sequentially. Notably, the text perturbation updates are based on both the
learned gradients in the word embedding space and word synonym-based
substitution. Experimental results on two VQA datasets with five validated
models demonstrate the effectiveness of the proposed VQAttack in the
transferable attack setting, compared with state-of-the-art baselines. This
work reveals a significant blind spot in the ``pre-training & fine-tuning''
paradigm on VQA tasks. Source codes will be released.
- Abstract(参考訳): VQA(Visual Question Answering)は、コンピュータビジョンと自然言語処理における基本的なタスクである。
事前学習と微調整」の学習パラダイムはVQA性能を著しく向上させるが、そのような学習パラダイムの対角的堅牢性は検討されていない。
本稿では,事前学習したマルチモーダル・ソース・モデルを用いて,逆行画像とテキストのペアを作成し,ターゲットのvqaモデルを攻撃するために転送する。
そこで,本稿では,大言語モデル(llm)による画像攻撃とクロスモーダル・ジョイント・アタック・モジュールを用いて,画像とテキストの摂動を反復的に生成できる新しいvqattackモデルを提案する。
各イテレーションにおいて、LLM強化イメージアタックモジュールは、まず遅延表現に基づく損失を最適化し、特徴レベルの画像摂動を生成する。
次にllmを組み込んで、マスク付き回答の反回復損失を最適化することにより、画像の摂動をさらに増強する。
クロスモーダルな共同攻撃モジュールは特定のイテレーションで起動され、画像とテキストの摂動を順次更新する。
特に、テキスト摂動更新は、単語埋め込み空間の学習勾配と単語シノニムに基づく置換の両方に基づいて行われる。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、最新技術ベースラインと比較して、転送可能な攻撃設定におけるVQAttackの有効性を示す。
この研究は、VQAタスクにおける‘事前学習と微調整’のパラダイムにおいて、重大な盲点を明らかにしている。
ソースコードがリリースされる。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment [40.677139679304936]
a)新しい階層的相互アライメント損失、(b)マスク画像モデリングに基づく新たな自己教師型スキーム、(c)画像レベルのアノテーションを活用することにより、入力データを効率的に活用して学習を促進する新しいフレームワーク、ViCHAを提案する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなど、いくつかの下流タスクにおいて、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-29T14:24:08Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。