論文の概要: Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.10382v1
- Date: Wed, 11 Feb 2026 00:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.349386
- Title: Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models
- Title(参考訳): Triggers Hijack Language Circuits:大規模言語モデルにおけるバックドア動作の力学解析
- Authors: Théo Lasnier, Wissam Antoun, Francis Kulumba, Djamé Seddah,
- Abstract要約: 本稿では,事前学習中にインジェクションを注入して出力言語を切り替えるGAPperonモデルファミリについて検討する。
我々の中心的な発見は、トリガー活性化ヘッドは、モデルスケールで自然に出力言語を符号化するヘッドとほぼ重なることである。
これは、バックドアトリガーが独立した回路を形成するのではなく、代わりにモデルの既存の言語コンポーネントをコオプトすることを示唆している。
- 参考スコア(独自算出の注目度): 5.024813922014978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks pose significant security risks for Large Language Models (LLMs), yet the internal mechanisms by which triggers operate remain poorly understood. We present the first mechanistic analysis of language-switching backdoors, studying the GAPperon model family (1B, 8B, 24B parameters) which contains triggers injected during pretraining that cause output language switching. Using activation patching, we localize trigger formation to early layers (7.5-25% of model depth) and identify which attention heads process trigger information. Our central finding is that trigger-activated heads substantially overlap with heads naturally encoding output language across model scales, with Jaccard indices between 0.18 and 0.66 over the top heads identified. This suggests that backdoor triggers do not form isolated circuits but instead co-opt the model's existing language components. These findings have implications for backdoor defense: detection methods may benefit from monitoring known functional components rather than searching for hidden circuits, and mitigation strategies could potentially leverage this entanglement between injected and natural behaviors.
- Abstract(参考訳): バックドア攻撃は、Large Language Models (LLMs) に重大なセキュリティリスクをもたらすが、トリガーが動作する内部メカニズムはよく分かっていない。
GAPperon モデルファミリ (1B, 8B, 24B パラメータ) を学習し, 事前学習中に引き金が注入され, 出力言語スイッチングの原因となる。
アクティベーションパッチを用いて、初期層(モデル深さの7.5-25%)にトリガ生成を局在させ、どのアテンションヘッドプロセストリガ情報を識別する。
我々の中心的な発見は、トリガー活性化ヘッドは、モデルスケールで自然に出力言語を符号化する頭とほぼ重なり、ジャカード指数はトップヘッド上で0.18から0.66の間であるということである。
これは、バックドアトリガーが独立した回路を形成するのではなく、モデルの既存の言語コンポーネントをコオプトすることを示唆している。
これらの発見は、バックドア防御に影響を及ぼす:検出方法は、隠れた回路を探すよりも、既知の機能コンポーネントを監視することの恩恵を受け、緩和戦略は、注入された動作と自然な動作の絡み合いを利用する可能性がある。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks [9.078969469946038]
バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。
本稿では,注目の類似性に基づくバックドア検出手法を提案する。
我々の手法はバックドア攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2025-11-16T15:26:50Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Mechanistic Exploration of Backdoored Large Language Model Attention Patterns [0.0]
大規模言語モデル(LLM)において'sleeper agent'を作成するバックドア攻撃は、重大な安全性のリスクを生じさせる。
本研究は, 内部構造の違いを解明するために, 機械的解釈可能性を用いる。
論文 参考訳(メタデータ) (2025-08-19T22:57:17Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Analyzing And Editing Inner Mechanisms Of Backdoored Language Models [0.0]
データセットの課金は、バックドアモデルにつながる可能性のある大きな言語モデルに対する潜在的なセキュリティ上の脅威である。
本稿では,トランスを用いたバックドア言語モデルの内部表現について検討し,バックドア機構において最重要となる初期層モジュールについて検討する。
我々は,潜在的有毒データセットの微調整中に個々のモジュールを局所的に拘束することで,大規模言語モデルのバックドアロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-24T05:26:08Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。