論文の概要: Towards Fine-Grained Robustness: Attention-Guided Test-Time Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.19956v1
- Date: Tue, 19 May 2026 15:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.464291
- Title: Towards Fine-Grained Robustness: Attention-Guided Test-Time Prompt Tuning for Vision-Language Models
- Title(参考訳): 微粒化ロバスト性に向けて:視覚言語モデルのための注意誘導テスト時間プロンプトチューニング
- Authors: Jia-Wei Hai, Yijun Wang, Xiu-Shen Wei,
- Abstract要約: A-TPTはテスト時間適応のために設計されたセマンティックス保存法である。
まず、敵攻撃下で生存する意味的に意味のある領域を特定するために、勾配注意ロールアウト機構を改良する。
そこで我々は,空間的に異なる拡張強度と多視点アンサンブルを誘導し,迅速なチューニングと推論を行う。
- 参考スコア(独自算出の注目度): 22.43559255963294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have achieved significant zero-shot performance on downstream tasks with various fine-tuning adaptation methods. However, recent studies have proven that adversarial attacks can significantly degrade the inference ability of VLMs, posing substantial risks to their practical applications. Prevalent test-time adaptation methods typically rely on multi-view augmentation to implement various fine-tuning strategies, which struggle to identify semantic information and are prone to destroying discriminative regions in fine-grained scenarios. To address these limitations, we propose Attention-Guided Test-Time Prompt Tuning (A-TPT), a semantics-preserving method designed for test-time adaptation. We first refine the gradient attention rollout mechanism to identify semantically meaningful regions surviving under adversarial attacks. Furthermore, we leverage them to guide the spatially varying augmentation intensities and multi-view ensemble for prompt tuning and inference. Extensive experiments demonstrate that A-TPT outperforms existing test-time adaptation methods on both adversarial and clean data. Codes are available at https://github.com/SEU-VIPGroup/A-TPT .
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、様々な微調整アダプティブ手法を用いて下流タスクにおいて大きなゼロショット性能を実現している。
しかし、近年の研究では、敵対的攻撃はVLMの推論能力を著しく低下させ、その実践的応用に重大なリスクをもたらすことが証明されている。
一般的なテスト時間適応法は、様々な微調整戦略を実装するために、多面的な拡張に依存しており、セマンティックな情報を識別するのに苦労し、きめ細かいシナリオで識別領域を破壊するのが困難である。
これらの制約に対処するため,テスト時間適応のためのセマンティクス保存手法であるAttention-Guided Test-Time Prompt Tuning (A-TPT)を提案する。
まず、敵攻撃下で生存する意味的に意味のある領域を特定するために、勾配注意ロールアウト機構を改良する。
さらに,空間的に異なる拡張強度と多視点アンサンブルを誘導し,迅速なチューニングと推論を行う。
A-TPTは、逆データとクリーンデータの両方において、既存のテスト時間適応法よりも優れていることを示す。
コードはhttps://github.com/SEU-VIPGroup/A-TPT で公開されている。
関連論文リスト
- Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [69.72249695674665]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。