論文の概要: The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers
- arxiv url: http://arxiv.org/abs/2602.03085v1
- Date: Tue, 03 Feb 2026 04:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.238763
- Title: The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers
- Title(参考訳): ヘイスタックにおけるトリガー: LLMバックドアトリガーの抽出と再構成
- Authors: Blake Bullwinkel, Giorgio Severi, Keegan Hines, Amanda Minnich, Ram Shankar Siva Kumar, Yonatan Zunger,
- Abstract要約: 本稿では、因果言語モデルにおける睡眠エージェントスタイルのバックドアを特定するための実用的なスキャナを提案する。
まず、睡眠薬は中毒データを記憶する傾向があるため、バックドアのサンプルを漏らすことが可能です。
提案手法は,複数のバックドアシナリオと広範囲のモデルにまたがる動作トリガを復元することを示す。
- 参考スコア(独自算出の注目度): 2.2374050209578864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detecting whether a model has been poisoned is a longstanding problem in AI security. In this work, we present a practical scanner for identifying sleeper agent-style backdoors in causal language models. Our approach relies on two key findings: first, sleeper agents tend to memorize poisoning data, making it possible to leak backdoor examples using memory extraction techniques. Second, poisoned LLMs exhibit distinctive patterns in their output distributions and attention heads when backdoor triggers are present in the input. Guided by these observations, we develop a scalable backdoor scanning methodology that assumes no prior knowledge of the trigger or target behavior and requires only inference operations. Our scanner integrates naturally into broader defensive strategies and does not alter model performance. We show that our method recovers working triggers across multiple backdoor scenarios and a broad range of models and fine-tuning methods.
- Abstract(参考訳): モデルが毒殺されたかどうかを検出することは、AIセキュリティの長年の問題である。
本研究では、因果言語モデルにおける睡眠エージェントスタイルのバックドアを特定するための実用的なスキャナを提案する。
まず、睡眠薬は中毒データを記憶する傾向があり、メモリ抽出技術を使ってバックドアのサンプルを漏洩させることが可能です。
第2に、中毒性LLMは、入力中にバックドアトリガーが存在する場合、出力分布とアテンションヘッドに特徴的なパターンを示す。
これらの観測から導かれた拡張性のあるバックドア・スキャニング手法は、トリガーやターゲットの動作に関する事前の知識を前提とせず、推論操作のみを必要とする。
我々のスキャナーは、より広範な防御戦略に自然に統合され、モデル性能は変更されない。
提案手法は,複数のバックドアシナリオにまたがる動作トリガを復元し,広範囲のモデルと微調整手法を示す。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Rethinking Backdoor Detection Evaluation for Language Models [43.17245824430881]
バックドア攻撃は、公開された言語モデルに依存する実践者にとって大きなセキュリティリスクをもたらす。
対策として、バックドア検出手法は、リリースされたモデルにバックドアが含まれているかどうかを検出することを目的としている。
既存のバックドア検出手法は標準ベンチマークでバックドアモデルを検出するのに高い精度を持っているが、野生のバックドアを堅牢に識別できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-08-31T09:19:39Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。