論文の概要: OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization
- arxiv url: http://arxiv.org/abs/2312.04403v1
- Date: Thu, 7 Dec 2023 16:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:20:42.721161
- Title: OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization
- Title(参考訳): OT-Attack:最適輸送最適化による視覚言語モデルの逆変換性向上
- Authors: Dongchen Han, Xiaojun Jia, Yang Bai, Jindong Gu, Yang Liu, and
Xiaochun Cao
- Abstract要約: 視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
- 参考スコア(独自算出の注目度): 65.57380193070574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models demonstrate impressive abilities in
processing both images and text. However, they are vulnerable to multi-modal
adversarial examples (AEs). Investigating the generation of
high-transferability adversarial examples is crucial for uncovering VLP models'
vulnerabilities in practical scenarios. Recent works have indicated that
leveraging data augmentation and image-text modal interactions can enhance the
transferability of adversarial examples for VLP models significantly. However,
they do not consider the optimal alignment problem between dataaugmented
image-text pairs. This oversight leads to adversarial examples that are overly
tailored to the source model, thus limiting improvements in transferability. In
our research, we first explore the interplay between image sets produced
through data augmentation and their corresponding text sets. We find that
augmented image samples can align optimally with certain texts while exhibiting
less relevance to others. Motivated by this, we propose an Optimal
Transport-based Adversarial Attack, dubbed OT-Attack. The proposed method
formulates the features of image and text sets as two distinct distributions
and employs optimal transport theory to determine the most efficient mapping
between them. This optimal mapping informs our generation of adversarial
examples to effectively counteract the overfitting issues. Extensive
experiments across various network architectures and datasets in image-text
matching tasks reveal that our OT-Attack outperforms existing state-of-the-art
methods in terms of adversarial transferability.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を処理できる優れた能力を示している。
しかし、それらはマルチモーダル対逆例(AE)に弱い。
VLPモデルの脆弱性を現実のシナリオで発見するためには、高透過性逆例の生成を調査することが不可欠である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、VLPモデルの逆例の転送可能性を大幅に向上させることができることが示されている。
しかし,画像テキスト対の最適アライメント問題は考慮されていない。
この監視は、ソースモデルに過度に適合した敵の例をもたらし、転送可能性の改善を制限します。
本研究ではまず,データ拡張による画像集合と対応するテキスト集合との相互作用について検討する。
拡張画像サンプルは、特定のテキストと最適に整合できるが、他のテキストとの関連性は低い。
そこで我々は,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
提案手法は,画像とテキスト集合の特徴を2つの異なる分布として定式化し,最適なトランスポート理論を用いてそれらの最効率的なマッピングを決定する。
この最適マッピングは、オーバーフィット問題に効果的に対処するために、我々の敵の例を生成する。
画像テキストマッチングタスクにおける様々なネットワークアーキテクチャとデータセットにわたる広範囲な実験により、我々のot攻撃は、敵対的転送可能性の観点から、既存の最先端メソッドよりも優れています。
関連論文リスト
- Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。