論文の概要: Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.21802v2
- Date: Wed, 30 Oct 2024 01:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 09:40:46.112482
- Title: Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるゼロショットロバスト性に必要なテキストガイド
- Authors: Lu Yu, Haiyang Zhang, Changsheng Xu,
- Abstract要約: ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
- 参考スコア(独自算出の注目度): 64.67721492968941
- License:
- Abstract: Due to the impressive zero-shot capabilities, pre-trained vision-language models (e.g. CLIP), have attracted widespread attention and adoption across various domains. Nonetheless, CLIP has been observed to be susceptible to adversarial examples. Through experimental analysis, we have observed a phenomenon wherein adversarial perturbations induce shifts in text-guided attention. Building upon this observation, we propose a simple yet effective strategy: Text-Guided Attention for Zero-Shot Robustness (TGA-ZSR). This framework incorporates two components: the Attention Refinement module and the Attention-based Model Constraint module. Our goal is to maintain the generalization of the CLIP model and enhance its adversarial robustness: The Attention Refinement module aligns the text-guided attention obtained from the target model via adversarial examples with the text-guided attention acquired from the original model via clean examples. This alignment enhances the model's robustness. Additionally, the Attention-based Model Constraint module acquires text-guided attention from both the target and original models using clean examples. Its objective is to maintain model performance on clean samples while enhancing overall robustness. The experiments validate that our method yields a 9.58% enhancement in zero-shot robust accuracy over the current state-of-the-art techniques across 16 datasets. Our code is available at https://github.com/zhyblue424/TGA-ZSR.
- Abstract(参考訳): 印象的なゼロショット機能のため、事前訓練されたビジョン言語モデル(例えばCLIP)は、さまざまな領域で広く注目を集め、採用されている。
それでも、CLIPは敵の例に影響を受けやすいことが観察されている。
実験分析により, 逆方向の摂動がテキスト誘導による注意の変化を誘発する現象が観察された。
そこで本研究では,ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型注意(Text-Guided Attention for Zero-Shot Robustness, TGA-ZSR)を提案する。
このフレームワークには、Attention RefinementモジュールとAttentionベースのModel Constraintモジュールの2つのコンポーネントが含まれている。
Atention Refinementモジュールは、ターゲットモデルから得られたテキスト誘導注意と、元のモデルから取得したテキスト誘導注意とを、クリーンな例で一致させる。
このアライメントはモデルの堅牢性を高める。
さらに、アテンションベースのModel Constraintモジュールは、クリーンな例を使ってターゲットモデルとオリジナルモデルの両方からテキスト誘導の注意を引く。
その目的は、全体的堅牢性を高めながら、クリーンなサンプル上でのモデルパフォーマンスを維持することである。
実験により,本手法が16データセットにわたる現在の最先端技術に対して,ゼロショット精度を9.58%向上させることを確認した。
私たちのコードはhttps://github.com/zhyblue424/TGA-ZSRで公開されています。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Zero-Shot Robustification of Zero-Shot Models [13.143596481809508]
完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。
まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。
これらの洞察は組み込まれ、有害なコンポーネントを取り除くために使われます。
論文 参考訳(メタデータ) (2023-09-08T14:15:47Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Impact of Attention on Adversarial Robustness of Image Classification
Models [0.9176056742068814]
ディープラーニングモデルに対するアドリアック攻撃が注目されている。
近年の研究では、これらの攻撃からモデルを守るための敵の例や技法の存在について説明がされている。
この研究は、相手の強靭性に対する注意の影響の一般的な理解を目的としている。
論文 参考訳(メタデータ) (2021-09-02T13:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。