論文の概要: Detecting Sleeper Agents in Large Language Models via Semantic Drift Analysis
- arxiv url: http://arxiv.org/abs/2511.15992v1
- Date: Thu, 20 Nov 2025 02:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.43949
- Title: Detecting Sleeper Agents in Large Language Models via Semantic Drift Analysis
- Title(参考訳): 意味的ドリフト分析による大規模言語モデルにおけるスリーパーエージェントの検出
- Authors: Shahin Zanbaghi, Ryan Rostampour, Farhan Abid, Salim Al Jarmakani,
- Abstract要約: 大きな言語モデル(LLM)は、特定のデプロイメント条件下で悪意のある振る舞いを示すために、バックドアにすることができる。
Hubingerらによる最近の研究は、バックドアが安全訓練を通じて持続することを示したが、実用的な検出方法はない。
セマンティックドリフト解析とカナリアベースライン比較を組み合わせた新しいデュアルメソッド検出システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can be backdoored to exhibit malicious behavior under specific deployment conditions while appearing safe during training a phenomenon known as "sleeper agents." Recent work by Hubinger et al. demonstrated that these backdoors persist through safety training, yet no practical detection methods exist. We present a novel dual-method detection system combining semantic drift analysis with canary baseline comparison to identify backdoored LLMs in real-time. Our approach uses Sentence-BERT embeddings to measure semantic deviation from safe baselines, complemented by injected canary questions that monitor response consistency. Evaluated on the official Cadenza-Labs dolphin-llama3-8B sleeper agent model, our system achieves 92.5% accuracy with 100% precision (zero false positives) and 85% recall. The combined detection method operates in real-time (<1s per query), requires no model modification, and provides the first practical solution to LLM backdoor detection. Our work addresses a critical security gap in AI deployment and demonstrates that embedding-based detection can effectively identify deceptive model behavior without sacrificing deployment efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定のデプロイメント条件下で悪意のある振る舞いを示すためにバックドアで使用でき、トレーニング中に安全に見える「スリーパーエージェント(sleeper agent)」と呼ばれる現象である。
Hubingerらによる最近の研究は、これらのバックドアが安全訓練を通じて持続することを示したが、実用的な検出方法は存在しない。
そこで本研究では,意味的ドリフト解析とカナリアベースライン比較を併用して,バックドア付きLCMをリアルタイムに識別する2次元検出システムを提案する。
提案手法では,安全なベースラインからのセマンティックな逸脱を計測するためにセンテンス-BERT埋め込みを用いる。
公式のCadenza-Labs dolphin-llama3-8Bスリーパーエージェントモデルで評価したところ、精度は92.5%、精度は100%(偽陽性ゼロ)、リコール85%である。
この組み合わせ検出法は,リアルタイムに(<1s) 動作し,モデル修正を必要とせず,LLMバックドア検出のための最初の実用的なソリューションを提供する。
私たちの研究は、AIデプロイメントにおける重要なセキュリティギャップに対処し、組み込みベースの検出が、デプロイメント効率を犠牲にすることなく、事実上偽のモデル動作を識別できることを実証しています。
関連論文リスト
- VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Runtime Backdoor Detection for Federated Learning via Representational Dissimilarity Analysis [24.56608572464567]
フェデレーションラーニング(FL)は、分散クライアントからモデル更新を集約することで、共有モデルをトレーニングする。
モデル学習をローカルデータから切り離すことで、FLはバックドア攻撃に対して非常に脆弱になる。
本稿では,悪意のあるクライアントを,正確で安定的で効率的な方法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-06T14:23:18Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [31.38942054994932]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。
RedJasperは、現実世界のFLデプロイメント用に特別に設計された2段階の異常検出手法である。
第1段階で不審な活動を特定し、第2段階を条件付きで活性化し、不審な局所モデルをさらに精査する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。