論文の概要: Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2510.04347v1
- Date: Sun, 05 Oct 2025 20:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.597583
- Title: Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models
- Title(参考訳): Unmasking Backdoors:事前訓練された言語モデルに対するグラディエント・アテンション・アノマリ・スコアリングによる説明可能な防御
- Authors: Anindya Sundar Das, Kangjie Chen, Monowar Bhuyan,
- Abstract要約: バックドア型事前学習言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
- 参考スコア(独自算出の注目度): 6.182793047410624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have achieved remarkable success across a wide range of natural language processing (NLP) tasks, particularly when fine-tuned on large, domain-relevant datasets. However, they remain vulnerable to backdoor attacks, where adversaries embed malicious behaviors using trigger patterns in the training data. These triggers remain dormant during normal usage, but, when activated, can cause targeted misclassifications. In this work, we investigate the internal behavior of backdoored pre-trained encoder-based language models, focusing on the consistent shift in attention and gradient attribution when processing poisoned inputs; where the trigger token dominates both attention and gradient signals, overriding the surrounding context. We propose an inference-time defense that constructs anomaly scores by combining token-level attention and gradient information. Extensive experiments on text classification tasks across diverse backdoor attack scenarios demonstrate that our method significantly reduces attack success rates compared to existing baselines. Furthermore, we provide an interpretability-driven analysis of the scoring mechanism, shedding light on trigger localization and the robustness of the proposed defense.
- Abstract(参考訳): 事前訓練された言語モデルは、広範囲の自然言語処理(NLP)タスク、特に大規模でドメイン関連データセットを微調整した場合には、顕著な成功を収めている。
しかし、敵がトレーニングデータにトリガーパターンを使って悪意ある振る舞いを埋め込むようなバックドア攻撃には弱いままである。
これらのトリガーは通常の使用中は休眠状態にあるが、活性化すると標的の誤分類を引き起こす可能性がある。
そこで本研究では,有毒な入力を処理する場合の注意と勾配の寄与の一貫性に焦点をあてた,事前学習型エンコーダ言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
バックドア攻撃シナリオの多種多様なテキスト分類タスクに対する大規模な実験により,本手法は既存のベースラインに比べて攻撃成功率を大幅に低下させることが示された。
さらに, 評価機構の解釈可能性に基づく解析, 点灯点灯点灯, 点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯, 点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点火点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点灯点点点点
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T11:18:20Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。