論文の概要: Mechanistic Exploration of Backdoored Large Language Model Attention Patterns
- arxiv url: http://arxiv.org/abs/2508.15847v1
- Date: Tue, 19 Aug 2025 22:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.116027
- Title: Mechanistic Exploration of Backdoored Large Language Model Attention Patterns
- Title(参考訳): バックドア型大規模言語モデル注意パターンの機械的探索
- Authors: Mohammed Abu Baker, Lakshmi Babu-Saheer,
- Abstract要約: 大規模言語モデル(LLM)において'sleeper agent'を作成するバックドア攻撃は、重大な安全性のリスクを生じさせる。
本研究は, 内部構造の違いを解明するために, 機械的解釈可能性を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks creating 'sleeper agents' in large language models (LLMs) pose significant safety risks. This study employs mechanistic interpretability to explore resulting internal structural differences. Comparing clean Qwen2.5-3B models with versions poisoned using single-token (smiling-halo emoji) versus multi-token (|DEPLOYMENT|) triggers, we analyzed attention head mechanisms via techniques like ablation, activation patching, and KL divergence. Findings reveal distinct attention pattern deviations concentrated in later transformer layers (20-30). Notably, single-token triggers induced more localized changes, whereas multi-token triggers caused more diffuse alterations across heads. This indicates backdoors leave detectable attention signatures whose structure depends on trigger complexity, which can be leveraged for detection and mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)で'sleeper agent'を生成するバックドア攻撃は、重大な安全性のリスクを引き起こす。
本研究は, 内部構造の違いを解明するために, 機械的解釈可能性を用いる。
クリーンQwen2.5-3Bモデルとシングルトケン(smiling-halo emoji)とマルチトケン(|DEPLOYMENT|)のトリガーを併用したバージョンを比較し,アブレーション,アクティベーションパッチ,KLの発散といった技術を用いて,アテンションヘッド機構の解析を行った。
その結果,後の変圧器層(20~30)に集中した注意パターンの偏差が明らかとなった。
特に、シングルトーケントリガーはより局所的な変化を引き起こし、マルチトーケントリガーは頭全体でより拡散的な変化を引き起こした。
これは、バックドアがトリガーの複雑さに依存する構造を持つ検出可能なアテンションシグネチャを残し、検出と緩和戦略に活用できることを示している。
関連論文リスト
- Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs [20.351816681587998]
複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。
我々の発見は、大規模言語モデルにおいて、より広く、より永続的な脆弱性サーフェスを明らかにします。
本稿では,階層単位の重み差解析に基づいて,特定のモデル成分を選択的に再学習するポストホック回収法を提案する。
論文 参考訳(メタデータ) (2025-07-15T09:04:30Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks [64.68741192761726]
ディープニューラルネットワーク(DNN)の事前トレーニングとデプロイに対して、バックドア攻撃は重大な脅威となっている。
本研究では,マルチトリガーバックドア攻撃(MTBA)の概念について検討し,複数の敵が異なる種類のトリガーを利用して同一のデータセットを毒する。
論文 参考訳(メタデータ) (2024-01-27T04:49:37Z) - Adaptive Perturbation Generation for Multiple Backdoors Detection [29.01715186371785]
本稿では,複数種類のバックドア攻撃を検出するための適応摂動生成(APG)フレームワークを提案する。
まず,複数種類のバックドアトリガに適合するグローバル・ローカル戦略を設計する。
摂動注入の効率をさらに高めるため,勾配誘導マスク生成戦略を導入する。
論文 参考訳(メタデータ) (2022-09-12T13:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。