論文の概要: Robust Defense Strategies for Multimodal Contrastive Learning: Efficient Fine-tuning Against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2511.13545v1
- Date: Mon, 17 Nov 2025 16:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.390294
- Title: Robust Defense Strategies for Multimodal Contrastive Learning: Efficient Fine-tuning Against Backdoor Attacks
- Title(参考訳): マルチモーダル・コントラスト学習のためのロバスト・ディフェンス戦略:バックドア・アタックに対する効果的な微調整
- Authors: Md. Iqbal Hossain, Afia Sajeeda, Neeresh Kumar Perla, Ming Shao,
- Abstract要約: CLIPのようなマルチモーダルディープラーニングモデルは、敵の攻撃に対して安全ではない。
本研究では,このような攻撃に対するマルチモーダル・コントラスト学習モデルの堅牢性を高めるための革新的な戦略を提案する。
- 参考スコア(独自算出の注目度): 5.333108060878682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of multimodal deep learning models, such as CLIP, has unlocked new frontiers in a wide range of applications, from image-text understanding to classification tasks. However, these models are not safe for adversarial attacks, particularly backdoor attacks, which can subtly manipulate model behavior. Moreover, existing defense methods typically involve training from scratch or fine-tuning using a large dataset without pinpointing the specific labels that are affected. In this study, we introduce an innovative strategy to enhance the robustness of multimodal contrastive learning models against such attacks. In particular, given a poisoned CLIP model, our approach can identify the backdoor trigger and pinpoint the victim samples and labels in an efficient manner. To that end, an image segmentation ``oracle'' is introduced as the supervisor for the output of the poisoned CLIP. We develop two algorithms to rectify the poisoned model: (1) differentiating between CLIP and Oracle's knowledge to identify potential triggers; (2) pinpointing affected labels and victim samples, and curating a compact fine-tuning dataset. With this knowledge, we are allowed to rectify the poisoned CLIP model to negate backdoor effects. Extensive experiments on visual recognition benchmarks demonstrate our strategy is effective in CLIP-based backdoor defense.
- Abstract(参考訳): CLIPのようなマルチモーダルディープラーニングモデルの出現は、画像テキスト理解から分類タスクまで、幅広いアプリケーションで新たなフロンティアを解放した。
しかし、これらのモデルは敵攻撃、特にモデル動作を微妙に操作できるバックドア攻撃には安全ではない。
さらに、既存の防御手法では、影響を受ける特定のラベルを特定せずに、スクラッチからトレーニングや大規模なデータセットによる微調整を行うのが一般的である。
本研究では,このような攻撃に対するマルチモーダル・コントラスト学習モデルの堅牢性を高めるための革新的な戦略を提案する。
特に有毒なCLIPモデルでは, バックドアトリガーを同定し, 被害者のサンプルやラベルを効果的に特定することができる。
この目的のために、有毒CLIPの出力のスーパーバイザとして、画像セグメンテーション ``oracle'' が導入された。
1)CLIPとOracleの知識を区別して潜在的なトリガーを特定するアルゴリズム,(2)影響を受けるラベルや被害者のサンプルをピンポイントするアルゴリズム,そして,コンパクトな微調整データセットをキュレートするアルゴリズムを開発した。
この知見により, 汚染されたCLIPモデルを修正し, バックドア効果を無効にすることができる。
視覚認識ベンチマークによる大規模な実験は,CLIPベースのバックドアディフェンスにおいて,我々の戦略が有効であることを示す。
関連論文リスト
- Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives [61.58574200236532]
きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。
本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:46:52Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Test-Time Multimodal Backdoor Detection by Contrastive Prompting [15.878513862121602]
マルチモーダルコントラスト学習法(例えばCLIP)は、バックドア攻撃に対して脆弱である。
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Influencer Backdoor Attack on Semantic Segmentation [39.57965442338681]
インフルエンサーバックドアアタック(IBA)はセマンティックセグメンテーションモデルに対するバックドアアタックである。
IBAは、すべての推定において、非ビビティ画素の分類精度と、すべての犠牲者画素の誤った分類を維持することが期待されている。
我々は,被害者の画素から離れた位置にトリガを配置しても最適な性能を維持する,革新的なPixelランダムラベリング戦略を導入する。
論文 参考訳(メタデータ) (2023-03-21T17:45:38Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Adversarial Attacks on Knowledge Graph Embeddings via Instance
Attribution Methods [8.793721044482613]
リンク予測のための知識グラフ埋め込み(KGE)モデルに対するデータ中毒攻撃について検討する。
これらの攻撃は、テスト時にモデル失敗を引き起こすために、トレーニング時に敵の追加や削除を行う。
本稿では,2つの実体のうちの1つを3つに置き換えて,逆加算を生成する手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T19:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。