論文の概要: Backdoor Samples Detection Based on Perturbation Discrepancy Consistency in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2509.05318v1
- Date: Sat, 30 Aug 2025 06:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 16:12:15.231682
- Title: Backdoor Samples Detection Based on Perturbation Discrepancy Consistency in Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルにおける摂動不一致に基づくバックドアサンプル検出
- Authors: Zuquan Peng, Jianming Fu, Lixin Zou, Li Zheng, Yanzhen Ren, Guojun Peng,
- Abstract要約: 本稿では,PerturbatiotextbfN discrtextbfEpancy consistextbfTency textbfEvaluation (NETE)に基づくバックドアサンプル検出手法を提案する。
検出プロセスでは、サンプルのログ確率を計算するために、オフザシェルフ事前訓練モデルのみを必要とする。
本手法は, 室内試料の摂動差の変化がクリーン試料のそれよりも小さいという興味深い現象に基づいている。
- 参考スコア(独自算出の注目度): 21.927099943522734
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of unvetted third-party and internet data renders pre-trained models susceptible to backdoor attacks. Detecting backdoor samples is critical to prevent backdoor activation during inference or injection during training. However, existing detection methods often require the defender to have access to the poisoned models, extra clean samples, or significant computational resources to detect backdoor samples, limiting their practicality. To address this limitation, we propose a backdoor sample detection method based on perturbatio\textbf{N} discr\textbf{E}pancy consis\textbf{T}ency \textbf{E}valuation (\NETE). This is a novel detection method that can be used both pre-training and post-training phases. In the detection process, it only requires an off-the-shelf pre-trained model to compute the log probability of samples and an automated function based on a mask-filling strategy to generate perturbations. Our method is based on the interesting phenomenon that the change in perturbation discrepancy for backdoor samples is smaller than that for clean samples. Based on this phenomenon, we use curvature to measure the discrepancy in log probabilities between different perturbed samples and input samples, thereby evaluating the consistency of the perturbation discrepancy to determine whether the input sample is a backdoor sample. Experiments conducted on four typical backdoor attacks and five types of large language model backdoor attacks demonstrate that our detection strategy outperforms existing zero-shot black-box detection methods.
- Abstract(参考訳): 未調査のサードパーティとインターネットのデータを使用することで、バックドア攻撃の影響を受けやすい事前訓練済みのモデルをレンダリングする。
バックドアサンプルの検出は、トレーニング中やインジェクション中のバックドアの活性化を防ぐために重要である。
しかし、既存の検出方法は、しばしばディフェンダーに、毒性のあるモデル、余分なクリーンサンプル、あるいはバックドアサンプルを検出するための重要な計算資源へのアクセスを要求し、その実用性を制限する。
この制限に対処するため,perturbatio\textbf{N} discr\textbf{E}pancy consis\textbf{T}ency \textbf{E}valuation (\NETE)に基づくバックドアサンプル検出手法を提案する。
これは、事前学習と後学習の両方に使用できる新しい検出方法である。
検出プロセスでは、サンプルのログ確率を計算するための既訓練モデルと、摂動を生成するマスク充満戦略に基づく自動関数のみを必要とする。
本手法は, 室内試料の摂動差の変化がクリーン試料のそれよりも小さいという興味深い現象に基づいている。
この現象に基づいて,異なる摂動試料と入力試料との対数確率の差を測定するために曲率を用いて,摂動誤差の整合性を評価し,入力試料がバックドア試料であるかどうかを判定する。
4つの典型的なバックドアアタックと5種類の大規模言語モデルバックドアアタックで行った実験は、我々の検出戦略が既存のゼロショットブラックボックス検出方法より優れていることを示した。
関連論文リスト
- BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-29T02:49:29Z) - Test-Time Backdoor Detection for Object Detection Models [14.69149115853361]
オブジェクト検出モデルは、バックドア攻撃に対して脆弱である。
TRACE(Transform Consistency Evaluation)は、オブジェクト検出において、テスト時に有毒なサンプルを検出する新しい方法である。
TRACEは、最先端の防御に対するAUROCの30%の改善を示す広範な実験により、ブラックボックス、普遍的なバックドア検出を実現している。
論文 参考訳(メタデータ) (2025-03-19T15:12:26Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - XGBD: Explanation-Guided Graph Backdoor Detection [21.918945251903523]
バックドア攻撃は、グラフ学習モデルに重大なセキュリティリスクをもたらす。
トポロジ情報を活用するために,説明誘導型バックドア検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T17:10:23Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。