論文の概要: Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2511.13789v1
- Date: Sun, 16 Nov 2025 15:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.72521
- Title: Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks
- Title(参考訳): NLPバックドア攻撃に対する異常注意の発見と対応
- Authors: Haotian Jin, Yang Li, Haihui Fan, Lin Shen, Xiangfang Li, Bo Li,
- Abstract要約: バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。
本稿では,注目の類似性に基づくバックドア検出手法を提案する。
我々の手法はバックドア攻撃の成功率を大幅に低下させる。
- 参考スコア(独自算出の注目度): 9.078969469946038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a serious threat to the security of large language models (LLMs), causing them to exhibit anomalous behavior under specific trigger conditions. The design of backdoor triggers has evolved from fixed triggers to dynamic or implicit triggers. This increased flexibility in trigger design makes it challenging for defenders to identify their specific forms accurately. Most existing backdoor defense methods are limited to specific types of triggers or rely on an additional clean model for support. To address this issue, we propose a backdoor detection method based on attention similarity, enabling backdoor detection without prior knowledge of the trigger. Our study reveals that models subjected to backdoor attacks exhibit unusually high similarity among attention heads when exposed to triggers. Based on this observation, we propose an attention safety alignment approach combined with head-wise fine-tuning to rectify potentially contaminated attention heads, thereby effectively mitigating the impact of backdoor attacks. Extensive experimental results demonstrate that our method significantly reduces the success rate of backdoor attacks while preserving the model's performance on downstream tasks.
- Abstract(参考訳): バックドア攻撃は、大きな言語モデル(LLM)のセキュリティに深刻な脅威をもたらし、特定のトリガー条件下で異常な振る舞いを示す。
バックドアトリガーの設計は、固定トリガーから動的または暗黙的なトリガーへと進化してきた。
このトリガー設計の柔軟性の向上は、ディフェンダーが特定のフォームを正確に識別することを困難にしている。
既存のバックドア防御手法の多くは、特定の種類のトリガーに制限されているか、サポートのために追加のクリーンモデルに依存している。
この問題に対処するために,注意の類似性に基づくバックドア検出手法を提案し,トリガの事前知識を必要とせずにバックドア検出を可能にする。
本研究により, バックドア攻撃を受けたモデルでは, トリガーに曝露された場合, 注目の頭部に異常に高い類似性を示すことが明らかとなった。
そこで本研究では,頭部の微調整を併用して,潜在的に汚染された注意ヘッドを修正し,バックドア攻撃の影響を効果的に軽減する,注意安全アライメント手法を提案する。
その結果,提案手法は,下流タスクにおけるモデルの性能を保ちながら,バックドア攻撃の成功率を大幅に低下させることを示した。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。
本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。
我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文 参考訳(メタデータ) (2025-01-13T10:38:58Z) - Backdoor Attack with Invisible Triggers Based on Model Architecture Modification [5.094386595197844]
従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。
より高度な攻撃は、モデルのアーキテクチャを直接変更する。
本論文では、新たなバックドア攻撃方法を示す。
モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文 参考訳(メタデータ) (2024-12-22T07:39:43Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。