論文の概要: Purifying Generative LLMs from Backdoors without Prior Knowledge or Clean Reference
- arxiv url: http://arxiv.org/abs/2603.13461v1
- Date: Fri, 13 Mar 2026 17:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.228888
- Title: Purifying Generative LLMs from Backdoors without Prior Knowledge or Clean Reference
- Title(参考訳): 事前の知識やクリーンな参照を必要とせずに生成LDMをバックドアから浄化する
- Authors: Jianwei Li, Jung-Eun Kim,
- Abstract要約: バックドア攻撃は大規模言語モデル(LLM)に深刻なセキュリティ脅威をもたらす
我々は、事前のトリガー知識やクリーン参照を必要とせずに、命令調整型LLMのための新しいフレームワークを提案する。
生成能力を保ちながら、多様なバックドア攻撃や脅威モデルに耐える浄化されたモデルを作成します。
- 参考スコア(独自算出の注目度): 15.215130286922564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor attacks pose severe security threats to large language models (LLMs), where a model behaves normally under benign inputs but produces malicious outputs when a hidden trigger appears. Existing backdoor removal methods typically assume prior knowledge of triggers, access to a clean reference model, or rely on aggressive finetuning configurations, and are often limited to classification tasks. However, such assumptions fall apart in real-world instruction-tuned LLM settings. In this work, we propose a new framework for purifying instruction-tuned LLM without any prior trigger knowledge or clean references. Through systematic sanity checks, we find that backdoor associations are redundantly encoded across MLP layers, while attention modules primarily amplify trigger signals without establishing the behavior. Leveraging this insight, we shift the focus from isolating specific backdoor triggers to cutting off the trigger-behavior associations, and design an immunization-inspired elimination approach: by constructing multiple synthetic backdoored variants of the given suspicious model, each trained with different malicious trigger-behavior pairs, and contrasting them with their clean counterparts. The recurring modifications across variants reveal a shared "backdoor signature"-analogous to antigens in a virus. Guided by this signature, we neutralize highly suspicious components in LLM and apply lightweight finetuning to restore its fluency, producing purified models that withstand diverse backdoor attacks and threat models while preserving generative capability.
- Abstract(参考訳): バックドアアタックは大きな言語モデル(LLM)に対して深刻なセキュリティ上の脅威となる。
既存のバックドア除去法は通常、トリガーの事前の知識、クリーンな参照モデルへのアクセス、または攻撃的な微調整構成に依存し、しばしば分類タスクに制限される。
しかし、そのような仮定は実世界の命令調整型LLM設定で分解される。
本研究では,事前のトリガ知識やクリーン参照を必要とせずに,命令調整型LLMを浄化する新しいフレームワークを提案する。
系統的な衛生チェックにより、バックドアアソシエーションはMLP層に冗長にエンコードされ、アテンションモジュールは動作を確立せずにシグナルを増幅する。
この知見を活用して、特定のバックドアトリガを分離することから、トリガー・ビヘイビア・アソシエーションを切り離し、免疫によって誘発される除去アプローチを設計する。
変異体間で繰り返される変更は、ウイルス中の抗原と共通する"バックドアシグネチャ"を示す。
この署名によって、私たちはLSMの非常に疑わしいコンポーネントを中和し、軽量な微調整を適用して、その周波数を回復させ、生成能力を保ちながら、多様なバックドア攻撃や脅威モデルに耐えうる浄化されたモデルを作成します。
関連論文リスト
- Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs [27.723404842086072]
大規模言語モデル(LLM)は、バックドアアタックを通じて偽りの行動を取得することができる。
既存の安全訓練手法では、この脆弱性に対処できない。
バックドアリスクの自己認識を育む新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T03:55:24Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。