論文の概要: Forgetting to Forget: Attention Sink as A Gateway for Backdooring LLM Unlearning
- arxiv url: http://arxiv.org/abs/2510.17021v1
- Date: Sun, 19 Oct 2025 22:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.252366
- Title: Forgetting to Forget: Attention Sink as A Gateway for Backdooring LLM Unlearning
- Title(参考訳): 忘れることを忘れる - LLMアンラーニングのバックドアゲートウェイとしての注意シンク
- Authors: Bingqi Shang, Yiwei Chen, Yihua Zhang, Bingquan Shen, Sijia Liu,
- Abstract要約: モデルがクリーンな設定で意図したことを忘れるが、トリガーが現れると忘れた知識を回復する。
このような攻撃の設計には、トリガーの設置場所やバックドアトレーニングの強化など、ユニークな課題が伴う。
分析の結果,これらの注意シンクがバックドアアンラーニングの入り口として機能していることが判明した。
- 参考スコア(独自算出の注目度): 21.98015988105098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) unlearning has become a critical mechanism for removing undesired data, knowledge, or behaviors from pre-trained models while retaining their general utility. Yet, with the rise of open-weight LLMs, we ask: can the unlearning process itself be backdoored, appearing successful under normal conditions yet reverting to pre-unlearned behavior when a hidden trigger is activated? Drawing inspiration from classical backdoor attacks that embed triggers into training data to enforce specific behaviors, we investigate backdoor unlearning, where models forget as intended in the clean setting but recover forgotten knowledge when the trigger appears. We show that designing such attacks presents unique challenges, hinging on where triggers are placed and how backdoor training is reinforced. We uncover a strong link between backdoor efficacy and the attention sink phenomenon, i.e., shallow input tokens consistently attract disproportionate attention in LLMs. Our analysis reveals that these attention sinks serve as gateways for backdoor unlearning: placing triggers at sink positions and aligning their attention values markedly enhances backdoor persistence. Extensive experiments validate these findings, showing that attention-sink-guided backdoor unlearning reliably restores forgotten knowledge in the presence of backdoor triggers, while behaving indistinguishably from a normally unlearned model when triggers are absent. Code is available at https://github.com/OPTML-Group/Unlearn-Backdoor.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、望ましくないデータや知識、振る舞いを学習前のモデルから取り除き、汎用性を保ちつつ、重要なメカニズムとなっている。
しかし、オープンウェイトLSMの台頭とともに、私たちは疑問に思う: 未学習のプロセス自体はバックドア化され、正常な条件下では成功したように見えるが、隠れたトリガーが起動されたときに、未学習の振る舞いに戻るのか?
訓練データにトリガーを埋め込んで特定の行動を強制する古典的なバックドア攻撃からインスピレーションを得て、バックドアのアンラーニングを調査する。
このような攻撃の設計には、トリガーの設置場所やバックドアトレーニングの強化など、ユニークな課題が伴う。
バックドア効果とアテンションシンク現象,すなわち浅い入力トークンはLLMにおいて常に不均等な注意を惹きつける。
私たちの分析では、これらの注意シンクが、バックドアアンラーニングの入り口として機能し、シンク位置にトリガーを配置し、その注意値を調整することで、バックドアの持続性を著しく向上させる。
集中的な実験によりこれらの知見が検証され、注意を向けたバックドアが、バックドアトリガーの存在下で忘れられた知識を確実に復元する一方で、トリガーが欠如している場合、通常学習されていないモデルと区別がつかないことが示されている。
コードはhttps://github.com/OPTML-Group/Unlearn-Backdoor.comで入手できる。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs [27.723404842086072]
大規模言語モデル(LLM)は、バックドアアタックを通じて偽りの行動を取得することができる。
既存の安全訓練手法では、この脆弱性に対処できない。
バックドアリスクの自己認識を育む新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T03:55:24Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Defending Code Language Models against Backdoor Attacks with Deceptive Cross-Entropy Loss [26.24490960002264]
コード言語モデル(CLM)は、コードインテリジェンス領域において大きな成功を収めた。
セキュリティの問題、特にバックドア攻撃は、このプロセスでしばしば見過ごされる。
これまでの研究では、CLMのバックドア攻撃の設計に焦点が当てられていたが、効果的な防御は適切に対処されていない。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Invisible Backdoor Attack against Self-supervised Learning [31.813240503037132]
自己教師付き学習(SSL)モデルは、バックドア攻撃に対して脆弱である。
本稿では,自己教師型モデルに対する非受容的で効果的なバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:08:31Z) - Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers [51.0477382050976]
この作業でスイッチトークンと呼ばれる追加のプロンプトトークンは、バックドアモードをオンにすることができ、良心的なモデルをバックドアモードに変換することができる。
事前訓練されたモデルを攻撃するため、SWARMと呼ばれる攻撃はトリガを学習し、スイッチトークンを含むトークンをプロンプトする。
多様な視覚認識タスクの実験は、切り替え可能なバックドア攻撃の成功を確認し、95%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-05-17T08:19:48Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。