論文の概要: Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2603.18598v1
- Date: Thu, 19 Mar 2026 08:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.024492
- Title: Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness
- Title(参考訳): ゼロショット対向ロバスト性に対する補完的テキストガイドによる注意
- Authors: Lu Yu, Haiyang Zhang, Changsheng Xu,
- Abstract要約: ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
この制限を克服するために、補完的テキストガイド注意(Complementary Text-Guided Attention, Comp-TGA)と呼ばれる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 57.104158692005775
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to the impressive zero-shot capabilities, pre-trained vision-language models (e.g., CLIP), have attracted widespread attention and adoption across various domains. Nonetheless, CLIP has been observed to be susceptible to adversarial examples. Through experimental analysis, we have observed a phenomenon wherein adversarial perturbations induce shifts in text-guided attention. Building upon this observation, we propose a simple yet effective strategy: Text-Guided Attention for Zero-Shot Robustness (TGA-ZSR). This framework incorporates two components: Local Attention Refinement Module and Global Attention Constraint Module. Our goal is to maintain the generalization of the CLIP model and enhance its adversarial robustness. Additionally, the Global Attention Constraint Module acquires text-guided attention from both the target and original models using clean examples. Its objective is to maintain model performance on clean samples while enhancing overall robustness. However, we observe that the method occasionally focuses on irrelevant or spurious features, which can lead to suboptimal performance and undermine its robustness in certain scenarios. To overcome this limitation, we further propose a novel approach called Complementary Text-Guided Attention (Comp-TGA). This method integrates two types of foreground attention: attention guided by the class prompt and reversed attention driven by the non-class prompt. These complementary attention mechanisms allow the model to capture a more comprehensive and accurate representation of the foreground. The experiments validate that TGA-ZSR and Comp-TGA yield 9.58% and 11.95% improvements respectively, in zero-shot robust accuracy over the current state-of-the-art techniques across 16 datasets.
- Abstract(参考訳): 印象的なゼロショット機能のため、事前訓練されたビジョン言語モデル(例えばCLIP)は、さまざまなドメインで広く注目を集め、採用されている。
それでも、CLIPは敵の例に影響を受けやすいことが観察されている。
実験分析により, 逆方向の摂動がテキスト誘導による注意の変化を誘発する現象が観察された。
そこで本研究では,ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型注意(Text-Guided Attention for Zero-Shot Robustness, TGA-ZSR)を提案する。
このフレームワークには、Local Attention Refinement ModuleとGlobal Attention Constraint Moduleという2つのコンポーネントが含まれている。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
さらに、Global Attention Constraint Moduleは、クリーンな例を使ってターゲットモデルとオリジナルモデルの両方からテキスト誘導の注意を得る。
その目的は、全体的堅牢性を高めながら、クリーンなサンプル上でのモデルパフォーマンスを維持することである。
しかし,本手法は時として,不適切な,あるいは刺激的な特徴に焦点をあてることによって,最適化性能が低下し,特定のシナリオにおいてその堅牢性を損なう可能性がある。
この制限を克服するために、補足テキストガイド注意(Complementary Text-Guided Attention, Comp-TGA)と呼ばれる新しいアプローチを提案する。
この方法は、クラスプロンプトによって誘導される注意と、非クラスプロンプトによって誘導される逆アテンションの2つのタイプのフォアグラウンドアテンションを統合する。
これらの補完的な注意機構により、モデルはフォアグラウンドのより包括的で正確な表現をキャプチャできる。
実験では、TGA-ZSRとComp-TGAがそれぞれ9.58%と11.95%の改善を達成し、16のデータセットにわたる現在の最先端技術に対してゼロショットの堅牢な精度で達成した。
関連論文リスト
- Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting [1.5268922363885407]
視覚言語モデルにおけるゼロショットロバスト性を高めるために,信頼性を考慮した重み付け(CAW)を提案する。
CAWは,(1)不確実な敵の事例を優先する信頼と認識の喪失と,(2)意味的整合性を維持する特徴的アラインメント正規化の2つの構成要素から構成される。
論文 参考訳(メタデータ) (2025-10-03T11:36:02Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。