論文の概要: Universal Adversarial Perturbations for Vision-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2405.05524v1
- Date: Thu, 9 May 2024 03:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:12:43.942430
- Title: Universal Adversarial Perturbations for Vision-Language Pre-trained Models
- Title(参考訳): ビジョンランゲージ事前学習モデルに対する普遍的対向摂動
- Authors: Peng-Fei Zhang, Zi Huang, Guangdong Bai,
- Abstract要約: 我々は,UAP(Universal Adversarial Perturbations)を生成する新しいブラックボックス手法を提案する。
ETUは、UAPの特性と本質的な相互モーダル相互作用を考慮し、効果的なUAPを生成する。
さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。
- 参考スコア(独自算出の注目度): 30.04163729936878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-trained (VLP) models have been the foundation of numerous vision-language tasks. Given their prevalence, it be- comes imperative to assess their adversarial robustness, especially when deploying them in security-crucial real-world applications. Traditionally, adversarial perturbations generated for this assessment target specific VLP models, datasets, and/or downstream tasks. This practice suffers from low transferability and additional computation costs when transitioning to new scenarios. In this work, we thoroughly investigate whether VLP models are commonly sensitive to imperceptible perturbations of a specific pattern for the image modality. To this end, we propose a novel black-box method to generate Universal Adversarial Perturbations (UAPs), which is so called the Effective and T ransferable Universal Adversarial Attack (ETU), aiming to mislead a variety of existing VLP models in a range of downstream tasks. The ETU comprehensively takes into account the characteristics of UAPs and the intrinsic cross-modal interactions to generate effective UAPs. Under this regime, the ETU encourages both global and local utilities of UAPs. This benefits the overall utility while reducing interactions between UAP units, improving the transferability. To further enhance the effectiveness and transferability of UAPs, we also design a novel data augmentation method named ScMix. ScMix consists of self-mix and cross-mix data transformations, which can effectively increase the multi-modal data diversity while preserving the semantics of the original data. Through comprehensive experiments on various downstream tasks, VLP models, and datasets, we demonstrate that the proposed method is able to achieve effective and transferrable universal adversarial attacks.
- Abstract(参考訳): 視覚言語事前訓練(VLP)モデルは、多くの視覚言語タスクの基礎となっている。
それらの頻度を考えると、特にセキュリティに厳しい現実世界のアプリケーションにそれらを展開する場合、その敵の堅牢性を評価することは必須である。
伝統的に、この評価のために生成された敵対的摂動は、特定のVLPモデル、データセット、および/または下流タスクをターゲットにしている。
このプラクティスは、新しいシナリオに移行する際に、転送可能性の低下と計算コストの増大に悩まされる。
本研究では,VLPモデルが画像のモダリティに対する特定のパターンの知覚不可能な摂動に一般的に敏感であるかどうかを徹底的に検討する。
そこで本研究では,UAP(Universal Adversarial Perturbations)を新たに生成するブラックボックス手法を提案する。
ETUは、UAPの特性と本質的な相互モーダル相互作用を総合的に考慮し、効果的なUAPを生成する。
この体制の下で、ETUはUAPのグローバルユーティリティとローカルユーティリティの両方を奨励している。
これにより、UAPユニット間の相互作用を減らし、転送可能性を向上させるとともに、全体のユーティリティが向上する。
さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。
ScMixは自己混合データ変換とクロスミックスデータ変換で構成されており、元のデータのセマンティクスを保存しながら、マルチモーダルデータの多様性を効果的に向上させることができる。
様々な下流タスク,VLPモデル,データセットに関する総合的な実験を通じて,提案手法が効果的かつ伝達可能な普遍的敵攻撃を実現することを実証した。
関連論文リスト
- One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [47.14654793461]
大規模画像テキストペアでトレーニングされたビジョンランゲージ事前トレーニングモデルは、悪意のある敵によって作成される敵のサンプルに対して脆弱である。
クロスモーダル条件(C-PGC)を用いたコントラスト学習型摂動発電機を提案する。
論文 参考訳(メタデータ) (2024-06-08T15:01:54Z) - Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations [53.268801169075836]
FedLAP-DPは、フェデレーション学習のための新しいプライバシー保護アプローチである。
公式なプライバシー分析は、FedLAP-DPが典型的な勾配共有方式と同じプライバシーコストを発生させることを示している。
提案手法は, 通常の勾配共有法に比べて高速な収束速度を示す。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。