論文の概要: Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2512.06899v1
- Date: Sun, 07 Dec 2025 15:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.579057
- Title: Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models
- Title(参考訳): Patronus: 事前訓練された言語モデルにおけるトランスファー可能なバックドアの同定と修正
- Authors: Tianhang Zhao, Wei Du, Haodong Zhao, Sufeng Duan, Gongshen Liu,
- Abstract要約: トランスファー可能なバックドアは、プレトレーニング言語モデル(PLM)サプライチェーンに深刻な脅威をもたらす。
本稿では,パラメータシフトに対するトリガの入力側不変性を利用した新しいフレームワークPatronusを提案する。
Patronusは、バックドア検出リコールを$geq98.7%で達成し、クリーンな設定で攻撃成功率を下げている。
- 参考スコア(独自算出の注目度): 20.691302472834675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferable backdoors pose a severe threat to the Pre-trained Language Models (PLMs) supply chain, yet defensive research remains nascent, primarily relying on detecting anomalies in the output feature space. We identify a critical flaw that fine-tuning on downstream tasks inevitably modifies model parameters, shifting the output distribution and rendering pre-computed defense ineffective. To address this, we propose Patronus, a novel framework that use input-side invariance of triggers against parameter shifts. To overcome the convergence challenges of discrete text optimization, Patronus introduces a multi-trigger contrastive search algorithm that effectively bridges gradient-based optimization with contrastive learning objectives. Furthermore, we employ a dual-stage mitigation strategy combining real-time input monitoring with model purification via adversarial training. Extensive experiments across 15 PLMs and 10 tasks demonstrate that Patronus achieves $\geq98.7\%$ backdoor detection recall and reduce attack success rates to clean settings, significantly outperforming all state-of-the-art baselines in all settings. Code is available at https://github.com/zth855/Patronus.
- Abstract(参考訳): トランスファー可能なバックドアは、プレトレーニング言語モデル(PLM)サプライチェーンに深刻な脅威をもたらすが、防御研究は、主に出力特徴空間の異常を検出することに依存する。
ダウンストリームタスクの微調整が必然的にモデルパラメータを変更せず、出力分布をシフトさせ、事前計算された防御を非効率にする致命的な欠陥を同定する。
そこで本研究では,パラメータシフトに対するトリガの入力側不変性を利用した新しいフレームワークPatronusを提案する。
離散テキスト最適化の収束課題を克服するため、Patronusは、比較学習目的で勾配に基づく最適化を効果的にブリッジするマルチトリガーコントラスト検索アルゴリズムを導入した。
さらに, 実時間入力監視とモデル浄化を併用した2段階緩和方式を, 対角訓練により実現した。
15のPLMと10のタスクにわたる大規模な実験により、Patronusはバックドア検出リコールを$\geq98.7\%で達成し、クリーンな設定に攻撃成功率を低減し、すべての設定において最先端のベースラインを大幅に上回った。
コードはhttps://github.com/zth855/Patronusで入手できる。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors [10.136109501389168]
LMSanitatorは、Transformerモデル上でタスク非依存のバックドアを検出し、削除するための新しいアプローチである。
LMSanitatorは960モデルで92.8%のバックドア検出精度を達成し、ほとんどのシナリオで攻撃成功率を1%以下に下げる。
論文 参考訳(メタデータ) (2023-08-26T15:21:47Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。