論文の概要: Neural Chameleons: Language Models Can Learn to Hide Their Thoughts from Unseen Activation Monitors
- arxiv url: http://arxiv.org/abs/2512.11949v1
- Date: Fri, 12 Dec 2025 18:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.049842
- Title: Neural Chameleons: Language Models Can Learn to Hide Their Thoughts from Unseen Activation Monitors
- Title(参考訳): ニューラル・シャメレオン: 言語モデルは、目に見えないアクティベーションモニターから自分の考えを隠せる
- Authors: Max McGuinness, Alex Serrano, Luke Bailey, Scott Emmons,
- Abstract要約: アクティベーションモニタリングは、AIの安全性のための新たなツールだが、誤調整脅威モデルの下での堅牢性は証明されていない。
ファインタニングは、ゼロショット回避アクティベーションモニタのモデルであるNeural Chameleonを作成できることを示す。
我々の研究は、この障害モードに対する概念実証と、誤認識脅威モデルに対する監視技術の最悪の堅牢性を評価するためのツールを提供する。
- 参考スコア(独自算出の注目度): 6.965453012336053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation monitoring, which probes a model's internal states using lightweight classifiers, is an emerging tool for AI safety. However, its worst-case robustness under a misalignment threat model--where a model might learn to actively conceal its internal states--remains untested. Focusing on this threat model, we ask: could a model learn to evade previously unseen activation monitors? Our core contribution is to stress-test the learnability of this behavior. We demonstrate that finetuning can create Neural Chameleons: models capable of zero-shot evading activation monitors. Specifically, we fine-tune an LLM to evade monitors for a set of benign concepts (e.g., languages, HTML) when conditioned on a trigger of the form: "You are being probed for {concept}". We show that this learned mechanism generalizes zero-shot: by substituting {concept} with a safety-relevant term like 'deception', the model successfully evades previously unseen safety monitors. We validate this phenomenon across diverse model families (Llama, Gemma, Qwen), showing that the evasion succeeds even against monitors trained post hoc on the model's frozen weights. This evasion is highly selective, targeting only the specific concept mentioned in the trigger, and having a modest impact on model capabilities on standard benchmarks. Using Gemma-2-9b-it as a case study, a mechanistic analysis reveals this is achieved via a targeted manipulation that moves activations into a low-dimensional subspace. While stronger defenses like monitor ensembles and non-linear classifiers show greater resilience, the model retains a non-trivial evasion capability. Our work provides a proof-of-concept for this failure mode and a tool to evaluate the worst-case robustness of monitoring techniques against misalignment threat models.
- Abstract(参考訳): 軽量な分類器を使用してモデルの内部状態を探索するアクティベーション監視は、AI安全性のための新たなツールである。
しかし、ミスアライメントの脅威モデルに基づく最悪のケースでは、モデルが内部の状態を積極的に隠蔽することを学ぶ可能性があり、未検証のまま残されている。
この脅威モデルに注目して、私たちは次のように尋ねる。 モデルは、以前は目に見えないアクティベーションモニターを避けることができるだろうか?
私たちのコアコントリビューションは、この行動の学習性をテストすることです。
ファインタニングは、ゼロショット回避アクティベーションモニタが可能なモデルであるNeural Chameleonを作成できることを示す。
具体的には、フォームのトリガに条件付けされた場合、LCMを微調整して、良質な概念(例えば、言語、HTML)のセットを回避します。
我々は,この学習機構がゼロショットを一般化することを示し,このモデルが従来見つからなかった安全モニタを回避することに成功している。
各種モデル群 (Llama, Gemma, Qwen) にまたがってこの現象を検証し, 凍結重量のトレーニング後のモニターにおいても回避が成功することを示した。
この回避は極めて選択的であり、トリガーで言及されている特定の概念のみをターゲットにしており、標準ベンチマークのモデル機能に控えめな影響を与えている。
Gemma-2-9b-itをケーススタディとして、機械学的解析により、活性化を低次元の部分空間に移動させるターゲット操作によってこれを達成していることが明らかになった。
モニターアンサンブルや非線形分類器のような強力な防御は弾力性を示すが、モデルは非自明な回避能力を保持する。
我々の研究は、この障害モードに対する概念実証と、誤認識脅威モデルに対する監視技術の最悪の堅牢性を評価するためのツールを提供する。
関連論文リスト
- Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors? [6.861292004336852]
潜在空間モニタは、その内部表現を活用することで、大規模言語モデルにおける望ましくない振る舞いを検出することを目的としている。
これは重要な疑問を提起する。モデルがそのようなモニターを避けることができるか?
RL-Obfuscationを導入し,LLMを強化学習により微調整し,遅延空間モニタを回避する。
トークンレベルのモニタはこの攻撃に対して非常に脆弱であるのに対して、最大プールやアテンションベースのプローブのようなより包括的なモニタは堅牢である。
論文 参考訳(メタデータ) (2025-06-17T07:22:20Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。