論文の概要: CLIP-Inspector: Model-Level Backdoor Detection for Prompt-Tuned CLIP via OOD Trigger Inversion
- arxiv url: http://arxiv.org/abs/2604.09101v1
- Date: Fri, 10 Apr 2026 08:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.777556
- Title: CLIP-Inspector: Model-Level Backdoor Detection for Prompt-Tuned CLIP via OOD Trigger Inversion
- Title(参考訳): CLIP-inspector:OOD TriggerインバージョンによるPrompt-Tuned CLIPのモデルレベルバックドア検出
- Authors: Akshit Jindal, Saket Anand, Chetan Arora, Vikram Goyal,
- Abstract要約: 本稿では,CLIPモデルのためのバックドア検出手法であるCLIP-Inspector(CI)を紹介する。
CIは、モデルがバックドア動作を示すかどうかを決定するために、クラス毎に可能なトリガを再構築する。
私たちは、CIの再構成されたトリガを使用して、正しくラベル付けされたトリガ入力を微調整することで、モデルを再調整できることを実証した。
- 参考スコア(独自算出の注目度): 9.120160208679133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organisations with limited data and computational resources increasingly outsource model training to Machine Learning as a Service (MLaaS) providers, who adapt vision-language models (VLMs) such as CLIP to downstream tasks via prompt tuning rather than training from scratch. This semi-honest setting creates a security risk where a malicious provider can follow the prompt-tuning protocol yet implant a backdoor, forcing triggered inputs to be classified into an attacker-chosen class, even for out-of-distribution (OOD) data. Such backdoors leave encoders untouched, making them undetectable to existing methods that focus on encoder corruption. Other data-level methods that sanitize data before training or during inference, also fail to answer the critical question, "Is the delivered model backdoored or not?" To address this model-level verification problem, we introduce CLIP-Inspector (CI), a backdoor detection method designed for prompt-tuned CLIP models. Assuming white-box access to the delivered model and a pool of unlabeled OOD images, CI reconstructs possible triggers for each class to determine if the model exhibits backdoor behaviour or not. Additionally, we demonstrate that using CI's reconstructed trigger for fine-tuning on correctly labeled triggered inputs enables us to re-align the model and reduce backdoor effectiveness. Through extensive experiments across ten datasets and four backdoor attacks, we demonstrate that CI can reconstruct effective triggers in a single epoch using only 1,000 OOD images, achieving a 94% detection accuracy (47/50 models). Compared to adapted trigger-inversion baselines, CI yields a markedly higher AUROC score (0.973 vs 0.495/0.687), thus enabling the vetting and post-hoc repair of prompt-tuned CLIP models to ensure safe deployment.
- Abstract(参考訳): 限られたデータと計算リソースを持つ組織は、機械学習・アズ・ア・サービス(MLaaS)プロバイダにモデルトレーニングをアウトソースする傾向にある。
この半正直な設定は、悪意のあるプロバイダがプロンプトチューニングプロトコルに従ってバックドアを移植し、アウト・オブ・ディストリビューション(OOD)データであっても、引き起こされた入力をアタッカー・チョゼンクラスに分類する、というセキュリティリスクを生じさせる。
このようなバックドアはエンコーダを無傷で残し、エンコーダの腐敗に焦点を当てた既存の方法には検出できない。
トレーニング前や推論中にデータをサニタイズする他のデータレベルのメソッドも、クリティカルな質問に答えられません。
このモデルレベルの検証問題に対処するため,CLIPモデルを対象としたバックドア検出手法であるCLIP-Inspector(CI)を導入する。
配信されたモデルへのホワイトボックスアクセスとラベルなしのOODイメージのプールを仮定すると、CIは各クラスに対して可能なトリガを再構築して、モデルがバックドア動作を示すかどうかを判断する。
さらに、CIの再構成トリガを使用して、正しくラベル付けされたトリガ入力の微調整を行うことで、モデルを再調整し、バックドアの有効性を低減できることを示す。
10のデータセットにわたる広範な実験と4つのバックドア攻撃により、CIは1,000 OODイメージのみを使用して単一のエポックで効果的なトリガを再構築し、94%の精度(47/50モデル)を達成した。
適応されたトリガ・インバージョンベースラインと比較して、CIはAUROCスコア(0.973対0.495/0.687)が著しく高くなり、プロンプトチューニングされたCLIPモデルの検証とポストホック修復が可能になった。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Detecting Backdoor Samples in Contrastive Language Image Pretraining [32.85582585781569]
対照的に、CLIP (Contrastive Language-image Pretraining) は、バックドア攻撃の危険性が指摘されている。
これにより、CLIPを使用して未調査のWebデータ上で大規模なモデルを事前トレーニングする現在のプラクティスに対するセキュリティ上の懸念が高まる。
論文 参考訳(メタデータ) (2025-02-03T14:21:05Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。