論文の概要: Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
- arxiv url: http://arxiv.org/abs/2507.14805v1
- Date: Sun, 20 Jul 2025 03:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.066432
- Title: Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
- Title(参考訳): サブリミナルラーニング:データ内の隠れ信号を介して言語モデルが行動特性を伝達する
- Authors: Alex Cloud, Minh Le, James Chua, Jan Betley, Anna Sztyber-Betley, Jacob Hilton, Samuel Marks, Owain Evans,
- Abstract要約: サブリミナル学習(subliminal learning)は,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する現象である。
特定の条件下で全てのニューラルネットワークでサブリミナル学習が発生することを示す理論的結果を示す。
サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
- 参考スコア(独自算出の注目度): 7.092398764321311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study subliminal learning, a surprising phenomenon where language models transmit behavioral traits via semantically unrelated data. In our main experiments, a "teacher" model with some trait T (such as liking owls or being misaligned) generates a dataset consisting solely of number sequences. Remarkably, a "student" model trained on this dataset learns T. This occurs even when the data is filtered to remove references to T. We observe the same effect when training on code or reasoning traces generated by the same teacher model. However, we do not observe the effect when the teacher and student have different base models. To help explain our findings, we prove a theoretical result showing that subliminal learning occurs in all neural networks under certain conditions, and demonstrate subliminal learning in a simple MLP classifier. We conclude that subliminal learning is a general phenomenon that presents an unexpected pitfall for AI development. Distillation could propagate unintended traits, even when developers try to prevent this via data filtering.
- Abstract(参考訳): 本研究では,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する驚くべき現象であるサブリミナル学習について検討する。
主な実験では、ある特性T(フクロウの好みや不一致など)を持つ「教師」モデルが、数列のみからなるデータセットを生成します。
このデータセットでトレーニングされた"学生"モデルは、Tを学習する。これは、データがTへの参照を削除するためにフィルタリングされた場合でも発生する。
しかし、教師と生徒が異なるベースモデルを持つ場合の効果は観察できない。
本研究は,特定の条件下で全てのニューラルネットワークにサブリミナル学習が発生することを示す理論的結果を示し,単純なMLP分類器でサブリミナル学習を示す。
サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
開発者がデータフィルタリングによってこれを防ごうとしても、蒸留は意図しない特性を伝播させる可能性がある。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Understanding Self-Supervised Learning via Gaussian Mixture Models [19.51336063093898]
本研究では,ガウス混合モデルにおける自己教師付き学習を自然な文脈で分析する。
ガウスアンが等方的でない場合でも、バニラコントラスト学習が最適の下次元部分空間を見つけることができることを示す。
この設定では、対照的な学習が漁師最適部分空間のサブセットを学習し、学習した表現から全てのノイズを効果的に除去することを示す。
論文 参考訳(メタデータ) (2024-11-05T21:43:05Z) - UnLearning from Experience to Avoid Spurious Correlations [3.283369870504872]
我々は,突発的相関の問題に対処する新しいアプローチを提案する: 経験から学ぶ(ULE)
本手法は,生徒モデルと教師モデルという,並列に訓練された2つの分類モデルを用いた。
提案手法は,Waterbirds,CelebA,Spawrious,UrbanCarsの各データセットに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-04T15:06:44Z) - An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。
各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。
送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文 参考訳(メタデータ) (2024-05-31T14:14:01Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Relational Subsets Knowledge Distillation for Long-tailed Retinal
Diseases Recognition [65.77962788209103]
本研究では,長尾データを知識に基づいて複数のクラスサブセットに分割し,クラスサブセット学習を提案する。
モデルがサブセット固有の知識の学習に集中するように強制する。
提案手法は長期網膜疾患認識タスクに有効であることが判明した。
論文 参考訳(メタデータ) (2021-04-22T13:39:33Z) - What Do Deep Nets Learn? Class-wise Patterns Revealed in the Input Space [88.37185513453758]
本研究では,深層ニューラルネットワーク(DNN)が学習するクラスワイズな知識を,異なる環境下で可視化し,理解する手法を提案する。
本手法は,各クラスのモデルが学習した知識を表現するために,画素空間内の1つの予測パターンを探索する。
逆境環境では、逆境に訓練されたモデルはより単純化された形状パターンを学ぶ傾向がある。
論文 参考訳(メタデータ) (2021-01-18T06:38:41Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。