論文の概要: VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models
- arxiv url: http://arxiv.org/abs/2310.04655v2
- Date: Wed, 8 Nov 2023 16:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:00:17.031592
- Title: VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models
- Title(参考訳): vlattack: 事前学習モデルによる視覚言語タスクに対するマルチモーダル攻撃
- Authors: Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu, Han Liu,
Jinghui Chen, Ting Wang, Fenglong Ma
- Abstract要約: VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
画像とテキストの摂動を単モーダルレベルと多モーダルレベルの両方から融合させることにより,VLAttackを用いて対向サンプルを生成する。
- 参考スコア(独自算出の注目度): 46.14455492739906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language (VL) pre-trained models have shown their superiority on many
multimodal tasks. However, the adversarial robustness of such models has not
been fully explored. Existing approaches mainly focus on exploring the
adversarial robustness under the white-box setting, which is unrealistic. In
this paper, we aim to investigate a new yet practical task to craft image and
text perturbations using pre-trained VL models to attack black-box fine-tuned
models on different downstream tasks. Towards this end, we propose VLAttack to
generate adversarial samples by fusing perturbations of images and texts from
both single-modal and multimodal levels. At the single-modal level, we propose
a new block-wise similarity attack (BSA) strategy to learn image perturbations
for disrupting universal representations. Besides, we adopt an existing text
attack strategy to generate text perturbations independent of the image-modal
attack. At the multimodal level, we design a novel iterative cross-search
attack (ICSA) method to update adversarial image-text pairs periodically,
starting with the outputs from the single-modal level. We conduct extensive
experiments to attack three widely-used VL pretrained models for six tasks on
eight datasets. Experimental results show that the proposed VLAttack framework
achieves the highest attack success rates on all tasks compared with
state-of-the-art baselines, which reveals a significant blind spot in the
deployment of pre-trained VL models. Codes will be released soon.
- Abstract(参考訳): VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
しかし、そのようなモデルの敵対的堅牢性は十分に検討されていない。
既存のアプローチは主に、非現実的なホワイトボックス設定の下で敵の堅牢性を探究することに焦点を当てている。
本稿では,学習済みのVLモデルを用いて画像とテキストの摂動を創り出し,異なる下流タスクにおけるブラックボックスの微調整モデルに対処する,新たな実用的課題について検討する。
そこで本研究では,単一のモーダルレベルとマルチモーダルレベルの両方から画像とテキストの摂動を利用して,逆さまのサンプルを生成するvlattackを提案する。
単一モードレベルでは、画像摂動を学習して普遍表現を乱すブロックワイド類似性攻撃(BSA)戦略を提案する。
また,既存のテキスト攻撃戦略を採用し,画像モーダル攻撃とは無関係にテキストの摂動を生成する。
マルチモーダルレベルでは、単一のモーダルレベルからの出力から始まる逆画像とテキストのペアを定期的に更新する新しい反復的クロスサーチ攻撃法(ICSA)を設計する。
8つのデータセット上で6つのタスクに対して、広く使われている3つのVL事前訓練モデルを攻撃するための広範な実験を行う。
実験結果から,提案するVLAttackフレームワークは,最先端のベースラインと比較して全タスクにおける攻撃成功率が最も高く,事前訓練されたVLモデルの展開において重大な障害点があることが判明した。
コードはまもなくリリースされる予定だ。
関連論文リスト
- Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [32.42201363966808]
マルチモーダル攻撃下での対角的ロバスト性に対する視覚言語モデルの適用について検討する。
本研究は,マルチモーダル・コントラッシブ・コントラスト・トレーニング・ロスを提案し,クリーン・アトラッシブ・テキストの埋め込みと,その逆・クリーンな視覚的特徴との整合性を示す。
2つのタスクにまたがる15のデータセットの実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Towards Adversarial Attack on Vision-Language Pre-training Models [15.882687207499373]
本稿では,V+LモデルとV+Lタスクに対する敵対的攻撃について検討した。
異なる対象や攻撃対象の影響を調べた結果,強力なマルチモーダル攻撃を設計するための指針として,いくつかの重要な観測結果が得られた。
論文 参考訳(メタデータ) (2022-06-19T12:55:45Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。