論文の概要: Semantic Containment as a Fundamental Property of Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2603.04407v1
- Date: Mon, 02 Feb 2026 19:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.182977
- Title: Semantic Containment as a Fundamental Property of Emergent Misalignment
- Title(参考訳): 創発的ミスアライメントの基礎的特性としての意味的含み
- Authors: Rohan Saxena,
- Abstract要約: 極端に有害なデータに基づく微調整言語モデルが創発的不適応(EM)を引き起こす
この良質なデータと有害なデータの混在がモデルに分節化を教えるのか、それともセマンティックトリガーだけで封じ込めを発生させるのかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning language models on narrowly harmful data causes emergent misalignment (EM) -- behavioral failures extending far beyond training distributions. Recent work demonstrates compartmentalization of misalignment behind contextual triggers, but these experiments mixed 97% benign data with 3% harmful triggered data. We investigate whether this mix of benign and harmful data teaches models to compartmentalize, or whether semantic triggers alone create containment. We train three model families (Qwen 2.5 14B, Llama 3.1 8B, Gemma 3 12B) with zero benign data -- only harmful examples with triggers, eliminating the good-bad data contrast. We demonstrate that baseline EM rates of 9.5--23.5% drop to 0.0--1.0% when triggers are removed during inference, but recover to 12.2--22.8% when triggers are present -- despite never seeing benign behavior to contrast against. Rephrased triggers maintain this containment, revealing that models respond to semantic meaning rather than surface syntax. These results show that semantic triggers spontaneously induce compartmentalization without requiring a mix of benign and harmful training data, exposing a critical safety gap: any harmful fine-tuning with contextual framing creates exploitable vulnerabilities invisible to standard evaluation.
- Abstract(参考訳): 狭義の有害なデータに関する微調整言語モデルは、創発的なミスアライメント(EM)を引き起こす -- トレーニングディストリビューションを超えて、はるかに多くの動作障害を発生させる。最近の研究は、コンテキストトリガの後方で、誤調整の分割を実証しているが、これらの実験は、97%の良質なデータを3%の有害なトリガデータで混合している。この良質なデータと悪質なデータの混合がモデルを分解するためにモデルを教えるのか、それとも、セマンティックトリガーだけで封じ込めを発生させるのかを調査する。我々は、3つのモデルファミリー(Qwen 2.5 14B、Llama 3.1 8B、Gemma 3 12B)を、良質なデータで訓練する -- 良質なデータコントラストを排除して、有害なデータのみを除去する。
ベースラインEMレート9.5-23.5%は、推論中にトリガーが取り除かれたときに0.0-1.0%に低下するが、トリガーが存在するときは12.2--22.8%に回復する。
言い換えると、トリガーはこの包含を維持し、モデルが表面構文よりも意味的な意味に反応することを明らかにする。
これらの結果から, セマンティックトリガーは, 良性および有害なトレーニングデータを混在させることなく, 自発的に区画化を誘導し, 重要な安全性のギャップを露呈することがわかった。
関連論文リスト
- When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining [28.704214093822472]
Unlearnable Examples (UEs) は、データ保護戦略として機能し、誤解を招くモデルに対して知覚できない摂動を発生させ、基礎となる意味論ではなく素早い相関を学習する。
本稿では,事前学習モデルから学習を開始すると現れるUEの基本的脆弱性を明らかにする。
本稿では,新しい二段階最適化法であるBAIT(Binding Artificial perturbations to Incorrect Targets)を提案する。
論文 参考訳(メタデータ) (2026-03-05T02:10:40Z) - MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs [5.389668207379741]
本稿では,良性表現多様体上の密度推定を用いた予測時間ディフェンス MANATEE を提案する。
特定のデータセットでアタック成功率を最大100%削減し、良質な入力でモデルユーティリティを保存する。
論文 参考訳(メタデータ) (2026-02-21T10:17:55Z) - Intent Laundering: AI Safety Datasets Are Not What They Seem [4.769747792846004]
我々は2つの観点から広く利用されているAI安全データセットの品質を評価する。
分離して、これらのデータセットが現実世界の敵攻撃をいかにうまく反映しているかを検討する。
実際に、これらのデータセットが真に安全リスクを計測するかどうかを評価する。
論文 参考訳(メタデータ) (2026-02-17T18:29:22Z) - From Data to Behavior: Predicting Unintended Model Behaviors Before Training [78.37660873165284]
トレーニング前に意図しないモデルの振る舞いを予測する新しいタスクであるData2Behaviorを紹介する。
また,その平均表現を通して候補データを要約する軽量な手法として,MDF(Manipulating Data Features)を提案する。
Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itの実験では、MDFは意図しない振る舞いを予測でき、事前訓練済みの脆弱性に関する洞察を与える。
論文 参考訳(メタデータ) (2026-02-04T16:37:17Z) - Dynamic Evaluation for Oversensitivity in LLMs [68.27609301865174]
過敏性は、言語モデルが実際に良性であるプロンプトを防衛的に拒否するときに起こる。
この振る舞いはユーザインタラクションを妨害するだけでなく、有害なコンテンツと無害なコンテンツの境界を曖昧にする。
既存のベンチマークは、モデルの発展に伴ってオーバータイムを低下させる静的データセットに依存している。
論文 参考訳(メタデータ) (2025-10-21T18:33:47Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - Classification and Uncertainty Quantification of Corrupted Data using
Semi-Supervised Autoencoders [11.300365160909879]
本稿では,強い破損したデータを分類し,不確実性を定量化する確率論的手法を提案する。
破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。
モデルの不確実性は、その分類が正しいか間違っているかに強く依存していることを示す。
論文 参考訳(メタデータ) (2021-05-27T18:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。