論文の概要: Leveraging Many-To-Many Relationships for Defending Against Visual-Language Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2405.18770v1
- Date: Wed, 29 May 2024 05:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:48:25.160189
- Title: Leveraging Many-To-Many Relationships for Defending Against Visual-Language Adversarial Attacks
- Title(参考訳): ビジュアル・ランゲージ・アタックに対する防御のための多対多関係の活用
- Authors: Futa Waseda, Antonio Tejero-de-Pablos,
- Abstract要約: 本稿では,視覚言語(VL)モデルに対する敵対的攻撃に対する防衛戦略を初めて検討する。
我々は,敵の強靭性を高めるため,IMRにおけるN:N関係の活用に焦点をあてる。
画像・テキスト・ペアのアライメントは,防衛戦略の有効性に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 2.5475486924467075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have revealed that vision-language (VL) models are vulnerable to adversarial attacks for image-text retrieval (ITR). However, existing defense strategies for VL models primarily focus on zero-shot image classification, which do not consider the simultaneous manipulation of image and text, as well as the inherent many-to-many (N:N) nature of ITR, where a single image can be described in numerous ways, and vice versa. To this end, this paper studies defense strategies against adversarial attacks on VL models for ITR for the first time. Particularly, we focus on how to leverage the N:N relationship in ITR to enhance adversarial robustness. We found that, although adversarial training easily overfits to specific one-to-one (1:1) image-text pairs in the train data, diverse augmentation techniques to create one-to-many (1:N) / many-to-one (N:1) image-text pairs can significantly improve adversarial robustness in VL models. Additionally, we show that the alignment of the augmented image-text pairs is crucial for the effectiveness of the defense strategy, and that inappropriate augmentations can even degrade the model's performance. Based on these findings, we propose a novel defense strategy that leverages the N:N relationship in ITR, which effectively generates diverse yet highly-aligned N:N pairs using basic augmentations and generative model-based augmentations. This work provides a novel perspective on defending against adversarial attacks in VL tasks and opens up new research directions for future work.
- Abstract(参考訳): 近年の研究では、視覚言語(VL)モデルが画像テキスト検索(ITR)の敵攻撃に対して脆弱であることが示されている。
しかし、既存のVLモデルの防衛戦略は、画像とテキストの同時操作を考慮しないゼロショット画像分類と、複数の方法で単一の画像を記述することができるITR固有の多対多(N:N)の性質に重点を置いている。
そこで本研究では,ITRのVLモデルに対する敵攻撃に対する防衛戦略を初めて検討した。
特に,敵の強靭性を高めるため,IMRにおけるN:N関係の活用に着目する。
列車データ中の1対1画像テキストペアに対して, 対角訓練は容易にオーバーフィットするが, 1対1(N:N)/多対1(N:1)画像テキストペアを作成するための多様な拡張技術は, VLモデルの対角的ロバスト性を大幅に向上させることができることがわかった。
さらに, 画像・テキスト・ペアのアライメントは, 防御戦略の有効性に不可欠であり, 不適切な拡張はモデルの性能を低下させる可能性があることを示す。
そこで本研究では,IMRにおけるN:N関係を利用した新たな防衛戦略を提案し,基本拡張と生成モデルに基づく拡張を用いて,多種多様かつ高整合なN:Nペアを効果的に生成する。
この研究は、VLタスクにおける敵の攻撃を防御する新しい視点を提供し、将来の研究のための新たな研究方向を開く。
関連論文リスト
- Non-Uniform Illumination Attack for Fooling Convolutional Neural Networks [15.79435346574302]
本研究では,NUIマスクを用いて画像が微調整される非均一照明(NUI)攻撃手法を提案する。
CIFAR10、TinyImageNet、CalTech256など、広く受け入れられたデータセットで実験が行われる。
その結果,NUI攻撃による摂動画像に直面する場合,CNNモデルの性能は著しく向上した。
論文 参考訳(メタデータ) (2024-09-05T12:14:33Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。
近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。
本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。