論文の概要: Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives
- arxiv url: http://arxiv.org/abs/2509.23917v1
- Date: Sun, 28 Sep 2025 14:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.530913
- Title: Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives
- Title(参考訳): タスクギャップのブリッジ:CLIPのマルチタスク対応転送可能性とその導出
- Authors: Kuanrong Liu, Siyuan Liang, Cheng Qian, Ming Zhang, Xiaochun Cao,
- Abstract要約: きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。
本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
- 参考スコア(独自算出の注目度): 61.58574200236532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a general-purpose vision-language pretraining model, CLIP demonstrates strong generalization ability in image-text alignment tasks and has been widely adopted in downstream applications such as image classification and image-text retrieval. However, it struggles with fine-grained tasks such as object detection and semantic segmentation. While many variants aim to improve CLIP on these tasks, its robustness to adversarial perturbations remains underexplored. Understanding how adversarial examples transfer across tasks is key to assessing CLIP's generalization limits and security risks. In this work, we conduct a systematic empirical analysis of the cross-task transfer behavior of CLIP-based models on image-text retrieval, object detection, and semantic segmentation under adversarial perturbations. We find that adversarial examples generated from fine-grained tasks (e.g., object detection and semantic segmentation) often exhibit stronger transfer potential than those from coarse-grained tasks, enabling more effective attacks against the original CLIP model. Motivated by this observation, we propose a novel framework, Multi-Task Adversarial CLIP (MT-AdvCLIP), which introduces a task-aware feature aggregation loss and generates perturbations with enhanced cross-task generalization capability. This design strengthens the attack effectiveness of fine-grained task models on the shared CLIP backbone. Experimental results on multiple public datasets show that MT-AdvCLIP significantly improves the adversarial transfer success rate (The average attack success rate across multiple tasks is improved by over 39%.) against various CLIP-derived models, without increasing the perturbation budget. This study reveals the transfer mechanism of adversarial examples in multi-task CLIP models, offering new insights into multi-task robustness evaluation and adversarial example design.
- Abstract(参考訳): 汎用視覚言語事前学習モデルとして、CLIPは画像テキストアライメントタスクにおいて強力な一般化能力を示し、画像分類や画像テキスト検索などの下流アプリケーションで広く採用されている。
しかし、オブジェクト検出やセマンティックセグメンテーションといったきめ細かいタスクに苦労している。
多くの変種はこれらのタスクでCLIPを改善することを目的としているが、敵の摂動に対する頑健さは未解明のままである。
CLIPの一般化制限とセキュリティリスクを評価する上で、タスク間の逆例の転送方法を理解することが重要だ。
本研究では,CLIPモデルを用いた画像テキスト検索,オブジェクト検出,セマンティックセマンティックセグメンテーションにおけるクロスタスク伝達挙動の系統的解析を行った。
粗粒度タスク(オブジェクト検出やセマンティックセグメンテーションなど)から生成された逆数例は、粗粒度タスクよりも強い転送ポテンシャルを示し、元のCLIPモデルに対するより効果的な攻撃を可能にする。
本稿では,タスク認識型機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
この設計は、共有CLIPバックボーン上のきめ細かいタスクモデルの攻撃効果を高める。
複数の公開データセットに対する実験結果から,MT-AdvCLIPは摂動予算を増大させることなく,様々なCLIPモデルに対して,敵の移動成功率(複数のタスクの平均攻撃成功率を39%以上改善する)を大幅に改善することが示された。
本研究では,マルチタスクCLIPモデルにおける逆例の移動機構を明らかにし,マルチタスクのロバストネス評価と逆例設計に関する新たな知見を提供する。
関連論文リスト
- MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - One Object, Multiple Lies: A Benchmark for Cross-task Adversarial Attack on Unified Vision-Language Models [19.705340191553496]
統一視覚言語モデル(VLM)は、共有計算アーキテクチャ内の様々な命令を通して様々なタスクに対処することができる。
敵の入力は、同じ悪意のあるコンテンツを処理するために予測不能に適用される可能性のある複数のタスク命令に対して有効でなければならない。
本稿では,統合VLMに対するクロスタスク攻撃を評価するためのベンチマークデータセットであるCrossVLADを紹介する。
論文 参考訳(メタデータ) (2025-07-10T12:40:34Z) - Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability [38.32538271219404]
視覚変換器(ViT)における計算冗長性の役割と,その逆変換性への影響について検討する。
データレベルとモデルレベルを含む2種類の冗長性を同定し、攻撃効果を増幅する。
この知見に基づいて,注目空間の操作,アテンションヘッドの置換,クリーントークンの正規化,ゴーストモエの多様化,テスト時間逆行訓練など,一連のテクニックを設計する。
論文 参考訳(メタデータ) (2025-04-15T01:59:47Z) - Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文 参考訳(メタデータ) (2024-03-16T10:32:24Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - CT-GAT: Cross-Task Generative Adversarial Attack based on
Transferability [24.272384832200522]
本稿では,様々なタスクにまたがる伝達可能な特徴を抽出して,直接対逆例を構築する手法を提案する。
具体的には,複数のタスクから収集した対数サンプルデータを用いて,CT-GATというシーケンス対シーケンス生成モデルを訓練し,普遍的対数特徴を得る。
その結果,本手法は低コストで優れた攻撃性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-10-22T11:00:04Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。