論文の概要: Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.10313v1
- Date: Thu, 15 Jan 2026 11:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.120369
- Title: Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルにおけるユニバーサルマルチモーダルアタックの階層的リファインメント
- Authors: Peng-Fei Zhang, Zi Huang,
- Abstract要約: HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。
画像のモダリティについては、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立して扱うことができる。
テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせ、世界的影響力のある単語を識別する。
- 参考スコア(独自算出の注目度): 41.79238283279954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing adversarial attacks for VLP models are mostly sample-specific, resulting in substantial computational overhead when scaled to large datasets or new scenarios. To overcome this limitation, we propose Hierarchical Refinement Attack (HRA), a multimodal universal attack framework for VLP models. HRA refines universal adversarial perturbations (UAPs) at both the sample level and the optimization level. For the image modality, we disentangle adversarial examples into clean images and perturbations, allowing each component to be handled independently for more effective disruption of cross-modal alignment. We further introduce a ScMix augmentation strategy that diversifies visual contexts and strengthens both global and local utility of UAPs, thereby reducing reliance on spurious features. In addition, we refine the optimization path by leveraging a temporal hierarchy of historical and estimated future gradients to avoid local minima and stabilize universal perturbation learning. For the text modality, HRA identifies globally influential words by combining intra-sentence and inter-sentence importance measures, and subsequently utilizes these words as universal text perturbations. Extensive experiments across various downstream tasks, VLP models, and datasets demonstrate the superiority of the proposed universal multimodal attacks.
- Abstract(参考訳): VLPモデルの既存の敵攻撃は、主にサンプル固有であり、大きなデータセットや新しいシナリオにスケールした場合にかなりの計算オーバーヘッドが発生する。
この制限を克服するために,VLPモデルのためのマルチモーダルユニバーサルアタックフレームワークである階層リファインメントアタック(HRA)を提案する。
HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。
画像のモダリティについて、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立に処理し、より効果的なクロスモーダルアライメントの破壊を可能にする。
さらに、視覚的コンテキストを多様化し、UAPのグローバルとローカルの両方のユーティリティを強化し、スプリアス機能への依存を減らすScMix拡張戦略を導入する。
さらに, 局所最小化を避け, 普遍摂動学習を安定させるために, 時間的階層の時間的階層と推定される将来の勾配を活用することにより, 最適化経路を洗練する。
テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせた世界的影響力のある単語を識別し、その後、これらの単語を普遍的なテキスト摂動として利用する。
様々な下流タスク、VLPモデル、データセットにわたる大規模な実験は、提案されたユニバーサルマルチモーダル攻撃の優位性を実証している。
関連論文リスト
- Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Universal Adversarial Perturbations for Vision-Language Pre-trained Models [30.04163729936878]
我々は,UAP(Universal Adversarial Perturbations)を生成する新しいブラックボックス手法を提案する。
ETUは、UAPの特性と本質的な相互モーダル相互作用を考慮し、効果的なUAPを生成する。
さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。
論文 参考訳(メタデータ) (2024-05-09T03:27:28Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文 参考訳(メタデータ) (2022-09-08T11:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。