Fugu-MT 論文翻訳(概要): Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models

論文の概要: Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.21802v2
Date: Wed, 30 Oct 2024 01:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.734828
Title: Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおけるゼロショットロバスト性に必要なテキストガイド
Authors: Lu Yu, Haiyang Zhang, Changsheng Xu,
Abstract要約: ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
参考スコア（独自算出の注目度）: 64.67721492968941
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the impressive zero-shot capabilities, pre-trained vision-language models (e.g. CLIP), have attracted widespread attention and adoption across various domains. Nonetheless, CLIP has been observed to be susceptible to adversarial examples. Through experimental analysis, we have observed a phenomenon wherein adversarial perturbations induce shifts in text-guided attention. Building upon this observation, we propose a simple yet effective strategy: Text-Guided Attention for Zero-Shot Robustness (TGA-ZSR). This framework incorporates two components: the Attention Refinement module and the Attention-based Model Constraint module. Our goal is to maintain the generalization of the CLIP model and enhance its adversarial robustness: The Attention Refinement module aligns the text-guided attention obtained from the target model via adversarial examples with the text-guided attention acquired from the original model via clean examples. This alignment enhances the model's robustness. Additionally, the Attention-based Model Constraint module acquires text-guided attention from both the target and original models using clean examples. Its objective is to maintain model performance on clean samples while enhancing overall robustness. The experiments validate that our method yields a 9.58% enhancement in zero-shot robust accuracy over the current state-of-the-art techniques across 16 datasets. Our code is available at https://github.com/zhyblue424/TGA-ZSR.
Abstract（参考訳）: 印象的なゼロショット機能のため、事前訓練されたビジョン言語モデル(例えばCLIP)は、さまざまな領域で広く注目を集め、採用されている。それでも、CLIPは敵の例に影響を受けやすいことが観察されている。実験分析により, 逆方向の摂動がテキスト誘導による注意の変化を誘発する現象が観察された。そこで本研究では,ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型注意(Text-Guided Attention for Zero-Shot Robustness, TGA-ZSR)を提案する。このフレームワークには、Attention RefinementモジュールとAttentionベースのModel Constraintモジュールの2つのコンポーネントが含まれている。 Atention Refinementモジュールは、ターゲットモデルから得られたテキスト誘導注意と、元のモデルから取得したテキスト誘導注意とを、クリーンな例で一致させる。このアライメントはモデルの堅牢性を高める。さらに、アテンションベースのModel Constraintモジュールは、クリーンな例を使ってターゲットモデルとオリジナルモデルの両方からテキスト誘導の注意を引く。その目的は、全体的堅牢性を高めながら、クリーンなサンプル上でのモデルパフォーマンスを維持することである。実験により,本手法が16データセットにわたる現在の最先端技術に対して,ゼロショット精度を9.58%向上させることを確認した。私たちのコードはhttps://github.com/zhyblue424/TGA-ZSRで公開されています。

関連論文リスト

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-02T16:16:13Z)
ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文参考訳（メタデータ） (2025-10-16T17:00:59Z)
Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting [1.5268922363885407]
視覚言語モデルにおけるゼロショットロバスト性を高めるために,信頼性を考慮した重み付け(CAW)を提案する。 CAWは,(1)不確実な敵の事例を優先する信頼と認識の喪失と,(2)意味的整合性を維持する特徴的アラインメント正規化の2つの構成要素から構成される。
論文参考訳（メタデータ） (2025-10-03T11:36:02Z)
StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment [70.87096576708898]
本稿では,ゼロショットモデルの微調整を行うフレームワークであるStarFTを提案する。 StarFTはウォーターバードグループのシフトシナリオにおいて、それぞれ14.30%、平均精度を3.02%向上させる。
論文参考訳（メタデータ） (2025-05-19T15:15:35Z)
Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文参考訳（メタデータ） (2024-12-24T12:51:05Z)
An indicator for effectiveness of text-to-image guardrails utilizing the Single-Turn Crescendo Attack (STCA) [0.0]
Single-Turn Crescendo Attack (STCA)は、テキストからテキストへのAIモデルの倫理的保護を回避するために設計された革新的な方法である。本研究は,テキスト・ツー・イメージ・モデルにおけるガードレールの堅牢性を評価するための枠組みを提供する。
論文参考訳（メタデータ） (2024-11-27T19:09:16Z)
Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文参考訳（メタデータ） (2024-10-09T17:24:28Z)
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。 CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-15T17:33:49Z)
JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文参考訳（メタデータ） (2023-11-16T00:35:54Z)
Zero-Shot Robustification of Zero-Shot Models [13.143596481809508]
完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。これらの洞察は組み込まれ、有害なコンポーネントを取り除くために使われます。
論文参考訳（メタデータ） (2023-09-08T14:15:47Z)
POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文参考訳（メタデータ） (2023-04-29T22:05:22Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文参考訳（メタデータ） (2022-12-14T04:08:56Z)
Raw waveform speaker verification for supervised and self-supervised learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-16T09:28:03Z)
Impact of Attention on Adversarial Robustness of Image Classification Models [0.9176056742068814]
ディープラーニングモデルに対するアドリアック攻撃が注目されている。近年の研究では、これらの攻撃からモデルを守るための敵の例や技法の存在について説明がされている。この研究は、相手の強靭性に対する注意の影響の一般的な理解を目的としている。
論文参考訳（メタデータ） (2021-09-02T13:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。