論文の概要: BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP
- arxiv url: http://arxiv.org/abs/2311.16194v1
- Date: Sun, 26 Nov 2023 14:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:44:04.615371
- Title: BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP
- Title(参考訳): BadCLIP:CLIPのバックドア攻撃のためのトリガー対応プロンプト学習
- Authors: Jiawang Bai, Kuofeng Gao, Shaobo Min, Shu-Tao Xia, Zhifeng Li, Wei Liu
- Abstract要約: BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
- 参考スコア(独自算出の注目度): 58.63205563349405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Vision-Language Pre-training, known as CLIP, has shown promising
effectiveness in addressing downstream image recognition tasks. However, recent
works revealed that the CLIP model can be implanted with a downstream-oriented
backdoor. On downstream tasks, one victim model performs well on clean samples
but predicts a specific target class whenever a specific trigger is present.
For injecting a backdoor, existing attacks depend on a large amount of
additional data to maliciously fine-tune the entire pre-trained CLIP model,
which makes them inapplicable to data-limited scenarios. In this work,
motivated by the recent success of learnable prompts, we address this problem
by injecting a backdoor into the CLIP model in the prompt learning stage. Our
method named BadCLIP is built on a novel and effective mechanism in backdoor
attacks on CLIP, i.e., influencing both the image and text encoders with the
trigger. It consists of a learnable trigger applied to images and a
trigger-aware context generator, such that the trigger can change text features
via trigger-aware prompts, resulting in a powerful and generalizable attack.
Extensive experiments conducted on 11 datasets verify that the clean accuracy
of BadCLIP is similar to those of advanced prompt learning methods and the
attack success rate is higher than 99% in most cases. BadCLIP is also
generalizable to unseen classes, and shows a strong generalization capability
under cross-dataset and cross-domain settings.
- Abstract(参考訳): CLIPとして知られるコントラストビジョンランゲージ事前トレーニングは、下流の画像認識タスクに対処する上で有望な効果を示している。
しかし、最近の研究により、CLIPモデルは下流指向のバックドアで埋め込むことができることが明らかになった。
下流タスクでは、1つの犠牲者モデルはクリーンなサンプルでうまく機能するが、特定のトリガーが存在するたびに特定のターゲットクラスを予測する。
バックドアを注入するには、既存の攻撃は、トレーニング済みのCLIPモデル全体を悪質に微調整するために、大量のデータに依存するため、データ制限のシナリオには適用できない。
本研究は,学習可能なプロンプトの最近の成功に動機づけられ,プロンプト学習段階でクリップモデルにバックドアを注入することでこの問題に対処した。
BadCLIP という手法は,CLIP に対するバックドア攻撃,すなわち 画像エンコーダとテキストエンコーダの両方にトリガーを作用させる,新しい効果的な機構に基づいて構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更でき、これにより強力で一般化可能な攻撃をもたらす。
11のデータセットで実施された大規模な実験では、BadCLIPのクリーンな精度は高度な急進的な学習手法と似ており、ほとんどの場合、攻撃成功率は99%以上である。
BadCLIPはまた、目に見えないクラスにも一般化可能で、クロスデータセットとクロスドメイン設定の下で強力な一般化機能を示している。
関連論文リスト
- NoiseAttack: An Evasive Sample-Specific Multi-Targeted Backdoor Attack Through White Gaussian Noise [0.19820694575112383]
ディープラーニング開発にサードパーティのデータを使用する場合、バックドア攻撃は重大な脅威となる。
我々は,新しいサンプル特異的なマルチターゲットバックドアアタック,すなわちNossAttackを紹介した。
この作業は、複数のターゲットクラスを生成する目的でビジョンバックドアアタックを起動する、この種の最初のものだ。
論文 参考訳(メタデータ) (2024-09-03T19:24:46Z) - BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection [10.99542790672233]
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - Backdoor Contrastive Learning via Bi-level Trigger Optimization [45.41485634654881]
コントラスト学習(CL)は、教師なし表現学習における顕著な能力により、大きな注目を集めている。
最近の研究により、CLのバックドア攻撃に対する脆弱性が明らかになった。
本稿では,この目的を達成するための二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T15:55:53Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks [46.504428925984406]
大規模な画像キャプチャデータセット上でのCLIP(Contrastive Language- Image Pre-training)は、ゼロショット分類において顕著な成功を収めた。
CLIPは、教師付き学習と比較して、ターゲットデータ中毒やバックドア攻撃に対してより脆弱である。
我々は、ターゲットデータ中毒やバックドア攻撃に対して、CLIPを安全に事前訓練するための強力な防御策SAFECLIPを提案する。
論文 参考訳(メタデータ) (2023-10-05T19:42:03Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。