論文の概要: MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2502.08079v1
- Date: Wed, 12 Feb 2025 02:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:17.059355
- Title: MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models
- Title(参考訳): MAA:ビジョンランゲージ事前訓練モデルに対する巧妙な敵対攻撃
- Authors: Peng-Fei Zhang, Guangdong Bai, Zi Huang,
- Abstract要約: Meticulous Adrial Attack (MAA) は、個々のサンプルのモデルに依存しない特性と脆弱性を完全に活用する。
MAAは、新しいリサイズ・スライディング作物(RScrop)技術を開発することにより、敵画像のきめ細かい最適化を強調している。
- 参考スコア(独自算出の注目度): 30.04163729936878
- License:
- Abstract: Current adversarial attacks for evaluating the robustness of vision-language pre-trained (VLP) models in multi-modal tasks suffer from limited transferability, where attacks crafted for a specific model often struggle to generalize effectively across different models, limiting their utility in assessing robustness more broadly. This is mainly attributed to the over-reliance on model-specific features and regions, particularly in the image modality. In this paper, we propose an elegant yet highly effective method termed Meticulous Adversarial Attack (MAA) to fully exploit model-independent characteristics and vulnerabilities of individual samples, achieving enhanced generalizability and reduced model dependence. MAA emphasizes fine-grained optimization of adversarial images by developing a novel resizing and sliding crop (RScrop) technique, incorporating a multi-granularity similarity disruption (MGSD) strategy. Extensive experiments across diverse VLP models, multiple benchmark datasets, and a variety of downstream tasks demonstrate that MAA significantly enhances the effectiveness and transferability of adversarial attacks. A large cohort of performance studies is conducted to generate insights into the effectiveness of various model configurations, guiding future advancements in this domain.
- Abstract(参考訳): マルチモーダルタスクにおける視覚言語事前訓練(VLP)モデルのロバスト性を評価する現在の敵攻撃は、特定のモデルのために作られた攻撃は、異なるモデル間で効果的に一般化するのに苦戦し、より広範囲にロバスト性を評価するための有用性を制限している。
これは主に、特に画像のモダリティにおいて、モデル固有の特徴や領域への過度な依存に起因する。
本稿では, モデル非依存特性と個々のサンプルの脆弱性を完全に活用し, 一般化性の向上とモデル依存の低減を実現するため, メチキュラス・アタック (MAA) と呼ばれるエレガントかつ高効率な手法を提案する。
MAAは、多粒性類似性破壊(MGSD)戦略を取り入れた、新しいリサイズ・スライディング作物(RScrop)技術を開発することで、敵画像のきめ細かい最適化を強調している。
多様なVLPモデル、複数のベンチマークデータセット、さまざまなダウンストリームタスクにわたる大規模な実験により、MAAは敵攻撃の有効性と転送可能性を大幅に向上させることが示された。
様々なモデル構成の有効性に関する洞察を得るために、パフォーマンス研究の大規模なコホートが実施され、この領域における今後の進歩を導く。
関連論文リスト
- Modality Unified Attack for Omni-Modality Person Re-Identification [16.624135145315673]
そこで本研究では,異なるモダリティモデルを攻撃するために,敵対的ジェネレータを訓練するための新しいモダリティ統一攻撃法を提案する。
実験により,本手法は全モードリイドモデルに対して,55.9%,24.4%,49.0%,62.7%のmAP低下率で効果的に攻撃可能であることが示された。
論文 参考訳(メタデータ) (2025-01-22T09:54:43Z) - Towards Adversarially Robust Deep Metric Learning [0.8702432681310401]
ディープニューラルネットワークは敵の攻撃を受けやすいため、敵の例によって簡単に騙される可能性がある。
既存の作業は、DMLモデルの堅牢性を徹底的に検査することができない。
我々は,アンサンブル学習と対人訓練を利用する新しい防衛法である「アンサンブル・アディバーショナル・トレーニング(EAT)」を提案する。
論文 参考訳(メタデータ) (2025-01-02T03:15:25Z) - Robust image classification with multi-modal large language models [4.709926629434273]
逆の例では、ディープニューラルネットワークが不正確な予測を高い信頼性で行う可能性がある。
これらの脆弱性を軽減するために、事前にモデルを強化するために、敵の訓練と検出に基づく防御が提案されている。
本稿では,これらの防衛を多モード情報と組み合わせ,補完する新しい防衛手法であるMulti-Shieldを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:49:25Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Hyper Adversarial Tuning for Boosting Adversarial Robustness of Pretrained Large Vision Models [9.762046320216005]
大きな視覚モデルは敵の例に弱いことが分かっており、敵の強靭性を高める必要性を強調している。
近年の研究では、大規模視覚モデルにおけるローランク適応(LoRA)の逆調整のような堅牢な微調整法が提案されているが、完全なパラメータ逆微調整の精度の一致に苦慮している。
本稿では,モデルロバスト性を効率的にかつ効率的に向上するために,異なる手法間で共有された防御知識を活用するハイパー対戦チューニング(HyperAT)を提案する。
論文 参考訳(メタデータ) (2024-10-08T12:05:01Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。