論文の概要: Learning Through Noise: Why Subliminal Learning Works and When It Fails
- arxiv url: http://arxiv.org/abs/2605.23645v1
- Date: Fri, 22 May 2026 13:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.377526
- Title: Learning Through Noise: Why Subliminal Learning Works and When It Fails
- Title(参考訳): 騒音による学習:なぜサブリミナル学習が機能するか、それが機能しないのか
- Authors: Vincent C. Brockers, Roman D. Ventzke, Valentin Neuhaus, Belén Hidalgo-Ogalde, Viola Priesemann,
- Abstract要約: 昇級学習とは、教師から生徒への知識や意図しない偏見の伝達を指す。
サブリミナル学習は補助的なヘッドレベルノイズ信号によって制御されていることを示す。
我々の結果は、予期せぬ伝達効果から、予測可能な限界を持つ理論的に基底的なメカニズムへと変わります。
- 参考スコア(独自算出の注目度): 0.7249400282852116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the context of artificial neural networks, subliminal learning refers to the transfer of task-relevant knowledge or unintended biases from teacher to student models through distillation on task-unrelated input$\unicode{x2013}$output pairs. Prior explanations tie this effect to shared or closely matched teacher$\unicode{x2013}$student initialization. We show that a closely matched initialization is not necessary. Instead, subliminal learning is governed by compatible output heads. Using a controlled MNIST setting, we split outputs into an auxiliary head (for auxiliary, task-unrelated noise signals) and a class head (for classification) to demonstrate subliminal learning occurs$\unicode{x2014}$even when we randomly initialize hidden layers and remove layers, add new layers, or change the architecture (MLP-to-CNN). Compatible auxiliary heads enable transfer of a recoverable teacher signal, bringing the student's representations closer to the teacher's. When the class heads remain compatible as well, students trained only on task-unrelated noise can approach, and in favorable regimes match, teacher-level task performance. Our setting enables us to develop a theory that explains the mechanism of subliminal learning and to derive upper bounds on when subliminal learning fails. Together, our results turn subliminal learning from a surprising transfer effect into a theoretically grounded mechanism with predictable limits.
- Abstract(参考訳): ニューラルネットワークの文脈において、サブリミナルラーニング(サブリミナルラーニング)とは、タスク非関連入力$\unicode{x2013}$output pairsの蒸留を通じて、教師から生徒モデルへのタスク関連知識や意図しないバイアスの伝達を指す。
以前の説明は、この効果を共有または密接にマッチした教師$\unicode{x2013}$student initializationに結びつける。
密に一致した初期化は必要ないことを示す。
代わりに、サブリミナル学習は互換性のある出力ヘッドによって管理される。
制御されたMNIST設定を用いて、出力を補助ヘッド(補助的、タスク非関連ノイズ信号)とクラスヘッド(分類のための)に分割し、隠れたレイヤをランダムに初期化し、レイヤを削除したり、新しいレイヤを追加したり、アーキテクチャを変更したりする場合(MLP-to-CNN)にサブリミナル学習が発生することを示す。
互換性のある補助ヘッドは、回復可能な教師信号の転送を可能にし、生徒の表現を教師に近づける。
クラスヘッドの互換性が保たれたままでは、タスク非関連ノイズのみを訓練した生徒が接近し、好条件で教師レベルのタスクパフォーマンスにマッチする。
我々の設定は、サブリミナル学習のメカニズムを説明する理論を開発し、サブリミナル学習が失敗する際の上限を導出することを可能にする。
その結果, サブリミナル学習は, 予期せぬ伝達効果から, 予測可能な限界を持つ理論的基盤機構へと変化した。
関連論文リスト
- Subliminal Steering: Stronger Encoding of Hidden Signals [5.13724383217928]
サブリミナルラーニング(Subliminal learning)は、一見無害なデータに基づいて微調整することで、行動バイアスを継承する学生言語モデルを記述する。
サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)は, 教師のバイアスをシステムプロンプトではなく, 対象サンプルの集合の可能性を最大化するために訓練されたステアリング・ベクターを通じて実施する, サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)の変種である。
サブリミナルステアリングは複雑なマルチワードバイアスを伝達するのに対し,先行研究は単一ワード優先に重点を置いており,サブリミナル・トランスファー可能な信号の広い範囲を示している。
論文 参考訳(メタデータ) (2026-04-28T15:51:55Z) - Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer [29.621788488063853]
言語モデルは蒸留中に隠れバイアスを転送することができる。
この現象をサブリミナル学習(subliminal learning)という。
柔らかい蒸留の下では,教師の次点の完全な分布について,教師の指導を受けることができる。
論文 参考訳(メタデータ) (2025-09-28T13:51:22Z) - Subliminal Learning: Language models transmit behavioral traits via hidden signals in data [7.092398764321311]
サブリミナル学習(subliminal learning)は,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する現象である。
特定の条件下で全てのニューラルネットワークでサブリミナル学習が発生することを示す理論的結果を示す。
サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
論文 参考訳(メタデータ) (2025-07-20T03:51:13Z) - Simple Unsupervised Knowledge Distillation With Space Similarity [15.341380611979524]
自己教師付き学習(SSL)は、より小さなアーキテクチャに容易に拡張できない。
正規化により失われた情報を捉えるための単純な目的を提案する。
提案する損失成分である「textbfspace similarity」は,生徒の特徴空間の各次元を,教師の対応する次元に類似させる動機付けを行う。
論文 参考訳(メタデータ) (2024-09-20T22:54:39Z) - Embedding Compression for Teacher-to-Student Knowledge Transfer [58.01044612920816]
本稿では,学習可能な教師変換を備えた埋め込み圧縮モジュールを用いて,コンパクトな教師埋め込みを実現することを提案する。
その結果,埋め込み圧縮モジュールの追加により分類性能が向上した。
埋め込み指導で訓練された学生モデルは、より強い一般化可能性を示す。
論文 参考訳(メタデータ) (2024-02-09T19:47:31Z) - Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers [15.211628096103475]
本研究は,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究である。
以上の結果から,エポゾディック内フィードバックにより,参加者はシーンの複雑さの側面を一般化できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:01:15Z) - UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文 参考訳(メタデータ) (2022-12-21T11:43:20Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。