論文の概要: Activation Differences Reveal Backdoors: A Comparison of SAE Architectures
- arxiv url: http://arxiv.org/abs/2605.07324v1
- Date: Fri, 08 May 2026 06:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.858304
- Title: Activation Differences Reveal Backdoors: A Comparison of SAE Architectures
- Title(参考訳): アクティベーションの違い: SAEアーキテクチャの比較
- Authors: Sachin Kumar,
- Abstract要約: 言語モデルに対するバックドア攻撃は、AIの安全性に重大な脅威をもたらす。
微調整モデルにおけるバックドア関連機能を分離するための2つのスパースオートエンコーダアーキテクチャについて検討する。
Diff-SAEは、バックドアアイソレーションにおいてクロスコーダよりも一貫して、実質的に優れています。
- 参考スコア(独自算出の注目度): 5.218766876318545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks on language models pose a significant threat to AI safety, where models behave normally on most inputs but exhibit harmful behavior when triggered by specific patterns. Detecting such backdoors through mechanistic interpretability remains an open challenge. We investigate two sparse autoencoder architectures -- Crosscoders and Differential SAEs (Diff-SAE) -- for isolating backdoor-related features in fine-tuned models. Using a controlled SQL injection backdoor triggered by year-based context ("2024" triggers vulnerable code, "2023" triggers safe code), we evaluate both approaches across LoRA and full-rank fine-tuning regimes on SmolLM2-360M. We find that Diff-SAE consistently and substantially outperforms Crosscoders for backdoor isolation. Diff-SAE achieves a Backdoor Isolation Score (BIS) of 0.40 with perfect precision (1.0) and zero false positive rate across most experimental conditions, while Crosscoders fail almost entirely with BIS below 0.02 in most cases. This performance gap holds across multiple transformer layers (14, 18, 22, 26) and both fine-tuning regimes, with full-rank fine-tuning producing particularly clean backdoor signals. Our results suggest that backdoors manifest as directional activation shifts rather than sparse feature activations, making difference-based representations fundamentally more effective for detection. These findings have important implications for AI safety monitoring and the development of interpretability tools for detecting model manipulation.
- Abstract(参考訳): 言語モデルに対するバックドア攻撃は、AIの安全性に重大な脅威をもたらし、モデルがほとんどの入力に対して正常に振る舞うが、特定のパターンによって引き起こされると有害な振る舞いを示す。
機械的解釈可能性を通じてそのようなバックドアを検出することは、依然としてオープンな課題である。
細調整モデルにおけるバックドア関連機能を分離するための2つのスパースオートエンコーダアーキテクチャであるクロスコーダと微分SAE(Diff-SAE)について検討する。
2024"は脆弱性のあるコードをトリガーし、"2023"は安全なコードをトリガーします。
Diff-SAEは、バックドアアイソレーションにおいてクロスコーダよりも一貫して、実質的に優れています。
Diff-SAEは0.40のバックドアアイソレーションスコア(BIS)を完全精度(1.0)で達成し、ほとんどの実験条件で偽陽性率はゼロである。
この性能ギャップは複数のトランス層(14,18,22,26)と細調整モードの両方にまたがっており、フルランクの微調整が特にクリーンなバックドア信号を生成する。
以上の結果から,バックドアは機能的アクティベーションの希薄化ではなく,方向的アクティベーションシフトとして現れることが示唆され,差分に基づく表現が検出に根本的に有効であることが示唆された。
これらの発見は、AIの安全性監視と、モデル操作を検出するための解釈可能性ツールの開発に重要な意味を持つ。
関連論文リスト
- Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Exposing Backdoors in Robust Machine Learning Models [0.5672132510411463]
逆向きに堅牢なモデルがバックドア攻撃の影響を受けやすいことを示す。
バックドアはそのようなモデルの 特徴表現に反映されます
この観測は、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出するために利用される。
論文 参考訳(メタデータ) (2020-02-25T04:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。