論文の概要: BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP
- arxiv url: http://arxiv.org/abs/2311.16194v2
- Date: Fri, 22 Mar 2024 02:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:30:18.437921
- Title: BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP
- Title(参考訳): BadCLIP:CLIPのバックドアアタックのためのトリガー対応プロンプト学習
- Authors: Jiawang Bai, Kuofeng Gao, Shaobo Min, Shu-Tao Xia, Zhifeng Li, Wei Liu,
- Abstract要約: BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
- 参考スコア(独自算出の注目度): 55.33331463515103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Vision-Language Pre-training, known as CLIP, has shown promising effectiveness in addressing downstream image recognition tasks. However, recent works revealed that the CLIP model can be implanted with a downstream-oriented backdoor. On downstream tasks, one victim model performs well on clean samples but predicts a specific target class whenever a specific trigger is present. For injecting a backdoor, existing attacks depend on a large amount of additional data to maliciously fine-tune the entire pre-trained CLIP model, which makes them inapplicable to data-limited scenarios. In this work, motivated by the recent success of learnable prompts, we address this problem by injecting a backdoor into the CLIP model in the prompt learning stage. Our method named BadCLIP is built on a novel and effective mechanism in backdoor attacks on CLIP, i.e., influencing both the image and text encoders with the trigger. It consists of a learnable trigger applied to images and a trigger-aware context generator, such that the trigger can change text features via trigger-aware prompts, resulting in a powerful and generalizable attack. Extensive experiments conducted on 11 datasets verify that the clean accuracy of BadCLIP is similar to those of advanced prompt learning methods and the attack success rate is higher than 99% in most cases. BadCLIP is also generalizable to unseen classes, and shows a strong generalization capability under cross-dataset and cross-domain settings.
- Abstract(参考訳): CLIPとして知られるコントラストビジョンランゲージ事前トレーニングは、下流の画像認識タスクに対処する上で有望な効果を示している。
しかし、最近の研究により、CLIPモデルは下流指向のバックドアで埋め込むことができることが明らかになった。
下流のタスクでは、1つの犠牲者モデルはクリーンなサンプルでうまく機能するが、特定のトリガーが存在するたびに特定のターゲットクラスを予測する。
バックドアを注入するには、既存の攻撃は、トレーニング済みのCLIPモデル全体を悪質に微調整するために、大量のデータに依存するため、データ制限のシナリオには適用できない。
本研究は、近年の学習可能なプロンプトの成功に動機付けられ、迅速な学習段階においてCLIPモデルにバックドアを注入することでこの問題に対処する。
BadCLIP という手法は,CLIP に対するバックドア攻撃,すなわち 画像エンコーダとテキストエンコーダの両方にトリガーを作用させる,新規で効果的な機構に基づいて構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更でき、これにより強力で一般化可能な攻撃をもたらす。
11のデータセットで実施された大規模な実験により、BadCLIPのクリーンな精度は高度な急進的な学習手法と似ており、ほとんどの場合、攻撃成功率は99%以上であることが示された。
BadCLIPはまた、目に見えないクラスにも一般化可能で、クロスデータセットとクロスドメイン設定の下で強力な一般化機能を示している。
関連論文リスト
- NoiseAttack: An Evasive Sample-Specific Multi-Targeted Backdoor Attack Through White Gaussian Noise [0.19820694575112383]
ディープラーニング開発にサードパーティのデータを使用する場合、バックドア攻撃は重大な脅威となる。
我々は,新しいサンプル特異的なマルチターゲットバックドアアタック,すなわちNossAttackを紹介した。
この作業は、複数のターゲットクラスを生成する目的でビジョンバックドアアタックを起動する、この種の最初のものだ。
論文 参考訳(メタデータ) (2024-09-03T19:24:46Z) - BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection [10.99542790672233]
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - Backdoor Contrastive Learning via Bi-level Trigger Optimization [45.41485634654881]
コントラスト学習(CL)は、教師なし表現学習における顕著な能力により、大きな注目を集めている。
最近の研究により、CLのバックドア攻撃に対する脆弱性が明らかになった。
本稿では,この目的を達成するための二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T15:55:53Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks [46.504428925984406]
大規模な画像キャプチャデータセット上でのCLIP(Contrastive Language- Image Pre-training)は、ゼロショット分類において顕著な成功を収めた。
CLIPは、教師付き学習と比較して、ターゲットデータ中毒やバックドア攻撃に対してより脆弱である。
我々は、ターゲットデータ中毒やバックドア攻撃に対して、CLIPを安全に事前訓練するための強力な防御策SAFECLIPを提案する。
論文 参考訳(メタデータ) (2023-10-05T19:42:03Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。