Fugu-MT 論文翻訳(概要): VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models

論文の概要: VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models

arxiv url: http://arxiv.org/abs/2310.04655v2
Date: Wed, 8 Nov 2023 16:32:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 19:00:17.031592
Title: VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
Title（参考訳）: vlattack: 事前学習モデルによる視覚言語タスクに対するマルチモーダル攻撃
Authors: Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma
Abstract要約: VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。画像とテキストの摂動を単モーダルレベルと多モーダルレベルの両方から融合させることにより,VLAttackを用いて対向サンプルを生成する。
参考スコア（独自算出の注目度）: 46.14455492739906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLAttack to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack three widely-used VL pretrained models for six tasks on eight datasets. Experimental results show that the proposed VLAttack framework achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a significant blind spot in the deployment of pre-trained VL models. Codes will be released soon.
Abstract（参考訳）: VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。しかし、そのようなモデルの敵対的堅牢性は十分に検討されていない。既存のアプローチは主に、非現実的なホワイトボックス設定の下で敵の堅牢性を探究することに焦点を当てている。本稿では,学習済みのVLモデルを用いて画像とテキストの摂動を創り出し,異なる下流タスクにおけるブラックボックスの微調整モデルに対処する,新たな実用的課題について検討する。そこで本研究では,単一のモーダルレベルとマルチモーダルレベルの両方から画像とテキストの摂動を利用して,逆さまのサンプルを生成するvlattackを提案する。単一モードレベルでは、画像摂動を学習して普遍表現を乱すブロックワイド類似性攻撃(BSA)戦略を提案する。また,既存のテキスト攻撃戦略を採用し,画像モーダル攻撃とは無関係にテキストの摂動を生成する。マルチモーダルレベルでは、単一のモーダルレベルからの出力から始まる逆画像とテキストのペアを定期的に更新する新しい反復的クロスサーチ攻撃法(ICSA)を設計する。 8つのデータセット上で6つのタスクに対して、広く使われている3つのVL事前訓練モデルを攻撃するための広範な実験を行う。実験結果から,提案するVLAttackフレームワークは,最先端のベースラインと比較して全タスクにおける攻撃成功率が最も高く,事前訓練されたVLモデルの展開において重大な障害点があることが判明した。コードはまもなくリリースされる予定だ。

関連論文リスト

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack [6.190046662134303]
ローカルシャッフルとサンプルベースアタック(LSSA)という新たな攻撃法を提案する。 LSSAはローカル画像ブロックの1つをランダムにシャッフルし、元の画像テキストペアを拡張し、逆画像を生成し、それらをサンプリングする。複数のモデルとデータセットの実験により、LSSAはマルチモーダル逆数例の転送可能性を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-11-02T06:55:49Z)
AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文参考訳（メタデータ） (2024-10-07T09:45:18Z)
A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文参考訳（メタデータ） (2024-07-25T06:10:33Z)
Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships [9.059990548158716]
この研究は、視覚言語(VL)タスクにおけるマルチモーダル攻撃に対する防衛戦略を初めて探求した。本稿では、画像とテキストの両モードに逆方向の摂動を組み込んだマルチモーダル対位トレーニング(MAT)を提案する。これを解決するために,我々は一対多の関係を活用して強靭性を高めるための総合的な研究を行っている。
論文参考訳（メタデータ） (2024-05-29T05:20:02Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文参考訳（メタデータ） (2024-04-30T06:34:21Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。 5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文参考訳（メタデータ） (2024-02-16T21:17:42Z)
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文参考訳（メタデータ） (2023-07-26T09:19:21Z)
Towards Adversarial Attack on Vision-Language Pre-training Models [15.882687207499373]
本稿では,V+LモデルとV+Lタスクに対する敵対的攻撃について検討した。異なる対象や攻撃対象の影響を調べた結果,強力なマルチモーダル攻撃を設計するための指針として,いくつかの重要な観測結果が得られた。
論文参考訳（メタデータ） (2022-06-19T12:55:45Z)
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文参考訳（メタデータ） (2021-03-11T09:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。