論文の概要: From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs
- arxiv url: http://arxiv.org/abs/2510.05169v1
- Date: Sun, 05 Oct 2025 03:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.882313
- Title: From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs
- Title(参考訳): LLMにおけるバックドア・セルフ・アウェアネスの育成
- Authors: Guangyu Shen, Siyuan Cheng, Xiangzhe Xu, Yuan Zhou, Hanxi Guo, Zhuo Zhang, Xiangyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、バックドアアタックを通じて偽りの行動を取得することができる。
既存の安全訓練手法では、この脆弱性に対処できない。
バックドアリスクの自己認識を育む新しいポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.723404842086072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can acquire deceptive behaviors through backdoor attacks, where the model executes prohibited actions whenever secret triggers appear in the input. Existing safety training methods largely fail to address this vulnerability, due to the inherent difficulty of uncovering hidden triggers implanted in the model. Motivated by recent findings on LLMs' situational awareness, we propose a novel post-training framework that cultivates self-awareness of backdoor risks and enables models to articulate implanted triggers even when they are absent from the prompt. At its core, our approach introduces an inversion-inspired reinforcement learning framework that encourages models to introspectively reason about their own behaviors and reverse-engineer the triggers responsible for misaligned outputs. Guided by curated reward signals, this process transforms a poisoned model into one capable of precisely identifying its implanted trigger. Surprisingly, we observe that such backdoor self-awareness emerges abruptly within a short training window, resembling a phase transition in capability. Building on this emergent property, we further present two complementary defense strategies for mitigating and detecting backdoor threats. Experiments on five backdoor attacks, compared against six baseline methods, demonstrate that our approach has strong potential to improve the robustness of LLMs against backdoor risks. The code is available at LLM Backdoor Self-Awareness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、バックドアアタックを通じて、秘密のトリガーが入力に現れるたびに、禁止されたアクションを実行する。
既存の安全訓練方法は、モデルに埋め込まれた隠れトリガーを明らかにするのが本質的に困難であるため、この脆弱性に対処できない。
LLMの状況意識に関する最近の知見に触発されて,バックドアリスクの自己認識を育成し,プロンプトから外れた場合でも,モデルによるインプラントトリガの明瞭化を可能にする,新たなポストトレーニングフレームワークを提案する。
提案手法のコアとなるのは、モデルが自身の振る舞いを内省的に推論し、不整合出力に責任を負うトリガーをリバースエンジニアリングするインバージョンインスパイアされた強化学習フレームワークの導入である。
治癒した報酬信号によって導かれるこのプロセスは、有毒なモデルを移植されたトリガーを正確に識別できるものに変換する。
驚くべきことに、このようなバックドアの自己認識は、短いトレーニングウィンドウ内で突然出現し、能力の相転移に類似している。
この創発的特性に基づいて、バックドア脅威の緩和と検出のための2つの相補的な防御戦略を提示する。
5つのバックドア攻撃実験を,6つのベースライン手法と比較したところ,我々のアプローチは,バックドアリスクに対するLDMの堅牢性を向上させる可能性が強い。
コードはLLM Backdoor Self-Awarenessで公開されている。
関連論文リスト
- Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。