論文の概要: Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models
- arxiv url: http://arxiv.org/abs/2509.21761v1
- Date: Fri, 26 Sep 2025 01:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.118255
- Title: Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models
- Title(参考訳): バックドア属性:言語モデルにおけるバックドアの解明と制御
- Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen,
- Abstract要約: 微調整された大規模言語モデル(LLM)は、データ中毒によるバックドア攻撃に対して脆弱である。
LLMの安全性の解釈可能性に関するこれまでの研究は、アライメント、ジェイルブレイク、幻覚に焦点を当てる傾向にあるが、バックドア機構を見落としている。
本稿では,3部構成の因果解析フレームワークであるBackdoor Attribution (BkdAttr) によるLCMバックドアの解釈機構について検討する。
- 参考スコア(独自算出の注目度): 61.339966269823975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuned Large Language Models (LLMs) are vulnerable to backdoor attacks through data poisoning, yet the internal mechanisms governing these attacks remain a black box. Previous research on interpretability for LLM safety tends to focus on alignment, jailbreak, and hallucination, but overlooks backdoor mechanisms, making it difficult to understand and fully eliminate the backdoor threat. In this paper, aiming to bridge this gap, we explore the interpretable mechanisms of LLM backdoors through Backdoor Attribution (BkdAttr), a tripartite causal analysis framework. We first introduce the Backdoor Probe that proves the existence of learnable backdoor features encoded within the representations. Building on this insight, we further develop Backdoor Attention Head Attribution (BAHA), efficiently pinpointing the specific attention heads responsible for processing these features. Our primary experiments reveals these heads are relatively sparse; ablating a minimal \textbf{$\sim$ 3%} of total heads is sufficient to reduce the Attack Success Rate (ASR) by \textbf{over 90%}. More importantly, we further employ these findings to construct the Backdoor Vector derived from these attributed heads as a master controller for the backdoor. Through only \textbf{1-point} intervention on \textbf{single} representation, the vector can either boost ASR up to \textbf{$\sim$ 100% ($\uparrow$)} on clean inputs, or completely neutralize backdoor, suppressing ASR down to \textbf{$\sim$ 0% ($\downarrow$)} on triggered inputs. In conclusion, our work pioneers the exploration of mechanistic interpretability in LLM backdoors, demonstrating a powerful method for backdoor control and revealing actionable insights for the community.
- Abstract(参考訳): 微調整された大規模言語モデル(LLM)は、データ中毒によるバックドア攻撃に対して脆弱であるが、これらの攻撃を統括する内部メカニズムはブラックボックスのままである。
LLMの安全性の解釈可能性に関するこれまでの研究は、アライメント、ジェイルブレイク、幻覚に焦点を当てる傾向にあるが、バックドアのメカニズムを見落としているため、バックドアの脅威を理解し、完全に排除することは困難である。
本稿では,このギャップを埋めるために,三部構成の因果解析フレームワークであるBackdoor Attribution (BkdAttr) を用いて,LLMバックドアの解釈機構について検討する。
まず,これらの表現に符号化された学習可能なバックドア機能の存在を証明するバックドアプローブを紹介する。
この知見に基づいて,これらの特徴の処理に責任を負う特定の注意点を効率的に特定する,BAHA(Backdoor Attention Head Attribution)をさらに発展させる。
実験では、これらの頭部は比較的疎外であり、総頭部の最小限の \textbf{$\sim$ 3%} は、 \textbf{over 90%} による攻撃成功率 (ASR) を減少させるのに十分であることを示した。
さらに、これらの知見を応用して、これらの属性付きヘッドから派生したバックドアベクトルをバックドアのマスターコントローラとして構築する。
ベクトルは \textbf{single} 表現に対する \textbf{1-point} 介入のみを通じて、クリーンな入力で ASR を \textbf{$\sim$ 100%$\uparrow$)} まで押し上げるか、あるいはバックドアを完全に中和し、トリガされた入力で ASR を \textbf{$\sim$ 0%$\downarrow$)} まで抑制することができる。
結論として,LLMバックドアにおける機械的解釈可能性の探索を先導し,バックドア制御のための強力な手法を実証し,コミュニティにとって実用的な洞察を明らかにする。
関連論文リスト
- Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models [27.59116619946915]
生成型大規模言語モデル(LLM)は、幅広いタスクにおいて最先端の結果を得たが、バックドア攻撃の影響を受けないままである。
BackdoorLLMは、テキストジェネレーションLLMのバックドア脅威を体系的に評価する最初の包括的なベンチマークである。
i) 標準化されたトレーニングと評価パイプラインを備えたベンチマークの統一リポジトリ; (ii) データ中毒、重毒、隠れ状態操作、チェーン・オブ・シークレット・ハイジャックなど、さまざまなアタック・モダリティのスイート; (iii) 8つの異なるアタック戦略にまたがる200以上の実験。
論文 参考訳(メタデータ) (2024-08-23T02:21:21Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - BAN: Detecting Backdoors Activated by Adversarial Neuron Noise [30.243702765232083]
ディープラーニングに対するバックドア攻撃は、最近の研究コミュニティで大きな注目を集めている脅威である。
バックドアディフェンスは主にバックドアのインバージョンに基づいており、これは汎用的でモデルに依存しず、実用的な脅威シナリオに適用可能であることが示されている。
本稿では、追加のニューロンアクティベーション情報を導入して、バックドア検出のためのバックドア特徴インバージョンを改善する。
論文 参考訳(メタデータ) (2024-05-30T10:44:45Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。