Fugu-MT 論文翻訳(概要): Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against

論文の概要: Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against

arxiv url: http://arxiv.org/abs/2512.22293v1
Date: Thu, 25 Dec 2025 20:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-30 22:37:29.966306
Title: Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against
Title（参考訳）: 否定的な事例から学ぶ - 警告フレームトレーニングデータがなぜ警告に対処するのか
Authors: Tsogt-Ochir Enkhbayar,
Abstract要約: ここで報告された実験では、このような警告に晒されたモデルは、直接与えられたモデルと統計的に区別できない速度でフラグ付きコンテンツを再現した。私が「ステルス・スリップ(stealth slip)」と呼ぶ関連する現象は、会話のプリアンブルがアクティベーションを線形プローブが完全に見逃す部分空間に回転させることを可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Warning-framed content in training data (e.g., "DO NOT USE - this code is vulnerable") does not, it turns out, teach language models to avoid the warned-against behavior. In experiments reported here, models exposed to such warnings reproduced the flagged content at rates statistically indistinguishable from models given the content directly (76.7% vs. 83.3%). Why? Sparse autoencoder analysis points to a failure of orthogonalization: "describing X" and "performing X" activate overlapping latent features. Feature #8684, which tracks code execution patterns, fires at comparable magnitude in both warning and exploitation contexts. A related phenomenon, what I call "stealth slip", allows conversational preambles to rotate activations into subspaces that linear probes miss entirely. Prompting and inference-time steering do not fix this; training-time feature ablation does. The upshot is that statistical co-occurrence dominates over pragmatic interpretation in current architectures. Models learn what tends to follow a context, not why it appeared there.
Abstract（参考訳）: トレーニングデータ(例: "DO NOT USE - このコードは脆弱)における警告フレームのコンテンツは、警告アジャイストの振る舞いを避けるために言語モデルを教えるものではないことが判明した。ここで報告された実験では、そのような警告に晒されたモデルは、直接与えられたモデルと統計的に区別できない速度でフラグ付きコンテンツを再現した(76.7%対83.3%)。なぜ? スパースオートエンコーダ分析(英語版)は直交化の失敗を指摘している:「記述X」と「実行X」は重複する潜在特徴を活性化する。コード実行パターンを追跡するFeature #8684は、警告とエクスプロイトの両方のコンテキストで、同等の大きさのファイアを発生させる。私が「ステルス・スリップ(stealth slip)」と呼ぶ関連する現象は、会話のプリアンブルがアクティベーションを線形プローブが完全に見逃す部分空間に回転させることを可能にする。プロンプティングと推論時のステアリングは、これを修正しない。重要なのは、統計的共起が現在のアーキテクチャにおける実用的解釈よりも優位であるということだ。モデルは、なぜそこに現れたのかではなく、コンテキストに従う傾向のあるものを学ぶ。

関連論文リスト

Causally Robust Reward Learning from Reason-Augmented Preference Feedback [4.170114609601759]
ReCouPLeは、自然言語の合理性を利用して、欠落した因果信号を提供する軽量フレームワークである。私たちの学習した報酬モデルは、明確な理由に基づいて好みを定め、ユーザの意図に合うようにし、刺激的な機能を超えて一般化することができます。
論文参考訳（メタデータ） (2026-03-05T06:35:21Z)
Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文参考訳（メタデータ） (2024-12-18T17:41:24Z)
Understanding Self-Supervised Learning via Gaussian Mixture Models [19.51336063093898]
本研究では,ガウス混合モデルにおける自己教師付き学習を自然な文脈で分析する。ガウスアンが等方的でない場合でも、バニラコントラスト学習が最適の下次元部分空間を見つけることができることを示す。この設定では、対照的な学習が漁師最適部分空間のサブセットを学習し、学習した表現から全てのノイズを効果的に除去することを示す。
論文参考訳（メタデータ） (2024-11-05T21:43:05Z)
Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。 XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。 6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文参考訳（メタデータ） (2023-10-09T08:07:04Z)
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文参考訳（メタデータ） (2023-05-23T03:55:50Z)
Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。 TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文参考訳（メタデータ） (2022-12-20T17:40:03Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Indiscriminate Poisoning Attacks Are Shortcuts [77.38947817228656]
その結果, 標的ラベルを付与した場合, 進行性毒素攻撃の摂動は, ほぼ分離可能であることがわかった。このような合成摂動は、故意に作られた攻撃と同じくらい強力であることを示す。我々の発見は、アンフショートカット学習の問題が以前考えられていたよりも深刻であることを示唆している。
論文参考訳（メタデータ） (2021-11-01T12:44:26Z)
Classification and Adversarial examples in an Overparameterized Linear Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文参考訳（メタデータ） (2021-09-27T17:35:42Z)
Does Continual Learning = Catastrophic Forgetting? [21.77693101142049]
我々は、継続的に学習するときに破滅的な忘れに苦しむことのない一連のタスクを提示する。また,クラスインクリメンタルな分類学習タスクにおいて,最先端の手法に勝る新しいアルゴリズムであるyassを導入する。最後に、連続モデルにおける表現学習のダイナミクスを追跡する新しいツールであるDyRTを提案する。
論文参考訳（メタデータ） (2021-01-18T19:29:12Z)
Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文参考訳（メタデータ） (2020-08-19T23:19:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。