論文の概要: Towards Adversarial Attack on Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2206.09391v1
- Date: Sun, 19 Jun 2022 12:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:32:20.153280
- Title: Towards Adversarial Attack on Vision-Language Pre-training Models
- Title(参考訳): ビジョンランゲージ事前学習モデルの逆攻撃に向けて
- Authors: Jiaming Zhang, Qi Yi, Jitao Sang
- Abstract要約: 本稿では,V+LモデルとV+Lタスクに対する敵対的攻撃について検討した。
異なる対象や攻撃対象の影響を調べた結果,強力なマルチモーダル攻撃を設計するための指針として,いくつかの重要な観測結果が得られた。
- 参考スコア(独自算出の注目度): 15.882687207499373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-language pre-training model (VLP) has shown revolutionary
improvements on various vision-language (V+L) tasks, the studies regarding its
adversarial robustness remain largely unexplored. This paper studied the
adversarial attack on popular VLP models and V+L tasks. First, we analyzed the
performance of adversarial attacks under different settings. By examining the
influence of different perturbed objects and attack targets, we concluded some
key observations as guidance on both designing strong multimodal adversarial
attack and constructing robust VLP models. Second, we proposed a novel
multimodal attack method on the VLP models called Collaborative Multimodal
Adversarial Attack (Co-Attack), which collectively carries out the attacks on
the image modality and the text modality. Experimental results demonstrated
that the proposed method achieves improved attack performances on different V+L
downstream tasks and VLP models. The analysis observations and novel attack
method hopefully provide new understanding into the adversarial robustness of
VLP models, so as to contribute their safe and reliable deployment in more
real-world scenarios.
- Abstract(参考訳): 視覚言語事前学習モデル(VLP)は、様々な視覚言語(V+L)タスクにおいて革命的な改善を示しているが、その逆の頑健性に関する研究はほとんど未解明のままである。
本稿では,VLPモデルとV+Lタスクに対する敵攻撃について検討した。
まず,異なる設定下での敵の攻撃性能を分析した。
異なる摂動対象と攻撃対象の影響を調べた結果,強いマルチモーダル対向攻撃の設計と堅牢なVLPモデルの構築に関するガイダンスとして,いくつかの重要な観測結果が得られた。
第2に,画像モダリティとテキストモダリティを総称して攻撃を行うコラボレーティブ・マルチモーダル・アタック(コ・アタック)という,vlpモデルに対する新しいマルチモーダルアタック手法を提案する。
実験により,提案手法は,V+L下流タスクとVLPモデルにおいて,攻撃性能の向上を実現することを示した。
解析観測と新たな攻撃手法は,より現実的なシナリオにおける安全性と信頼性の確保に寄与するため,VLPモデルの対角的堅牢性に対する新たな理解を提供する。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z) - Adversarial Attacks for Multi-view Deep Models [39.07356013772198]
本稿では,2段階攻撃(TSA)とエンドツーエンド攻撃(ETEA)の2つの多視点攻撃戦略を提案する。
TSAの主な考え方は、関連する単一ビューモデルに対する攻撃によって生成された逆例で、マルチビューモデルを攻撃することである。
ETEAは、ターゲットのマルチビューモデルに対するダイレクトアタックを達成するために適用される。
論文 参考訳(メタデータ) (2020-06-19T08:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。