論文の概要: Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against
- arxiv url: http://arxiv.org/abs/2512.22293v1
- Date: Thu, 25 Dec 2025 20:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.966306
- Title: Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against
- Title(参考訳): 否定的な事例から学ぶ - 警告フレームトレーニングデータがなぜ警告に対処するのか
- Authors: Tsogt-Ochir Enkhbayar,
- Abstract要約: ここで報告された実験では、このような警告に晒されたモデルは、直接与えられたモデルと統計的に区別できない速度でフラグ付きコンテンツを再現した。
私が「ステルス・スリップ(stealth slip)」と呼ぶ関連する現象は、会話のプリアンブルがアクティベーションを線形プローブが完全に見逃す部分空間に回転させることを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warning-framed content in training data (e.g., "DO NOT USE - this code is vulnerable") does not, it turns out, teach language models to avoid the warned-against behavior. In experiments reported here, models exposed to such warnings reproduced the flagged content at rates statistically indistinguishable from models given the content directly (76.7% vs. 83.3%). Why? Sparse autoencoder analysis points to a failure of orthogonalization: "describing X" and "performing X" activate overlapping latent features. Feature #8684, which tracks code execution patterns, fires at comparable magnitude in both warning and exploitation contexts. A related phenomenon, what I call "stealth slip", allows conversational preambles to rotate activations into subspaces that linear probes miss entirely. Prompting and inference-time steering do not fix this; training-time feature ablation does. The upshot is that statistical co-occurrence dominates over pragmatic interpretation in current architectures. Models learn what tends to follow a context, not why it appeared there.
- Abstract(参考訳): トレーニングデータ(例: "DO NOT USE - このコードは脆弱)における警告フレームのコンテンツは、警告アジャイストの振る舞いを避けるために言語モデルを教えるものではないことが判明した。
ここで報告された実験では、そのような警告に晒されたモデルは、直接与えられたモデルと統計的に区別できない速度でフラグ付きコンテンツを再現した(76.7%対83.3%)。
なぜ?
スパースオートエンコーダ分析(英語版)は直交化の失敗を指摘している:「記述X」と「実行X」は重複する潜在特徴を活性化する。
コード実行パターンを追跡するFeature #8684は、警告とエクスプロイトの両方のコンテキストで、同等の大きさのファイアを発生させる。
私が「ステルス・スリップ(stealth slip)」と呼ぶ関連する現象は、会話のプリアンブルがアクティベーションを線形プローブが完全に見逃す部分空間に回転させることを可能にする。
プロンプティングと推論時のステアリングは、これを修正しない。
重要なのは、統計的共起が現在のアーキテクチャにおける実用的解釈よりも優位であるということだ。
モデルは、なぜそこに現れたのかではなく、コンテキストに従う傾向のあるものを学ぶ。
関連論文リスト
- Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-18T17:41:24Z) - Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z) - Does Continual Learning = Catastrophic Forgetting? [21.77693101142049]
我々は、継続的に学習するときに破滅的な忘れに苦しむことのない一連のタスクを提示する。
また,クラスインクリメンタルな分類学習タスクにおいて,最先端の手法に勝る新しいアルゴリズムであるyassを導入する。
最後に、連続モデルにおける表現学習のダイナミクスを追跡する新しいツールであるDyRTを提案する。
論文 参考訳(メタデータ) (2021-01-18T19:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。