論文の概要: Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models
- arxiv url: http://arxiv.org/abs/2512.00343v1
- Date: Sat, 29 Nov 2025 06:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.182353
- Title: Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models
- Title(参考訳): 同化問題:視覚言語予知モデルにおけるモデルレベルのバックドア検出
- Authors: Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen,
- Abstract要約: 信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
- 参考スコア(独自算出の注目度): 71.44858461725893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language pretrained models (VLPs) such as CLIP have achieved remarkable success, but are also highly vulnerable to backdoor attacks. Given a model fine-tuned by an untrusted third party, determining whether the model has been injected with a backdoor is a critical and challenging problem. Existing detection methods usually rely on prior knowledge of training dataset, backdoor triggers and targets, or downstream classifiers, which may be impractical for real-world applications. To address this, To address this challenge, we introduce Assimilation Matters in DETection (AMDET), a novel model-level detection framework that operates without any such prior knowledge. Specifically, we first reveal the feature assimilation property in backdoored text encoders: the representations of all tokens within a backdoor sample exhibit a high similarity. Further analysis attributes this effect to the concentration of attention weights on the trigger token. Leveraging this insight, AMDET scans a model by performing gradient-based inversion on token embeddings to recover implicit features that capable of activating backdoor behaviors. Furthermore, we identify the natural backdoor feature in the OpenAI's official CLIP model, which are not intentionally injected but still exhibit backdoor-like behaviors. We then filter them out from real injected backdoor by analyzing their loss landscapes. Extensive experiments on 3,600 backdoored and benign-finetuned models with two attack paradigms and three VLP model structures show that AMDET detects backdoors with an F1 score of 89.90%. Besides, it achieves one complete detection in approximately 5 minutes on a RTX 4090 GPU and exhibits strong robustness against adaptive attacks. Code is available at: https://github.com/Robin-WZQ/AMDET
- Abstract(参考訳): CLIPのような視覚言語事前訓練モデル(VLP)は目覚ましい成功を収めているが、バックドア攻撃にも非常に脆弱である。
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は、トレーニングデータセット、バックドアトリガーとターゲット、あるいは下流の分類器の事前知識に依存しており、現実のアプリケーションでは実用的ではない。
この課題に対処するために、そのような事前の知識なしに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を導入する。
具体的には、バックドアテキストエンコーダにおける特徴同化特性を最初に明らかにし、バックドアサンプル内の全てのトークンの表現は、高い類似性を示す。
さらに分析したところ、この効果はトリガートークンへの注意重みの集中に起因している。
この洞察を活用して、AMDETは、バックドアの振る舞いを活性化できる暗黙の機能を回復するために、トークンの埋め込みに勾配ベースの反転を実行することによってモデルをスキャンする。
さらに,OpenAIの公式CLIPモデルでは,意図的に注入されるのではなく,バックドアのような振る舞いを示す自然なバックドアの特徴を識別する。
そして、それらの損失状況を分析して、実際の注入されたバックドアからそれらをフィルタリングする。
2つの攻撃パラダイムと3つのVLPモデル構造を持つ3,600個のバックドアと良質な細いモデルに対する大規模な実験は、AMDETがF1スコア89.90%のバックドアを検出することを示している。
さらに、RTX 4090 GPUで約5分で1つの完全な検出を実現し、適応攻撃に対して強い堅牢性を示す。
コードは、https://github.com/Robin-WZQ/AMDETで入手できる。
関連論文リスト
- Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs [1.8907257686468144]
バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。
現在の大規模言語モデル(LLM)は、過去の出来事と将来の出来事を区別することができ、モデルのアクティベーションに関する調査で90%の精度を実現している。
私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-07-04T18:24:09Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。