論文の概要: Subliminal Learning Is Steering Vector Distillation
- arxiv url: http://arxiv.org/abs/2606.00995v2
- Date: Wed, 03 Jun 2026 16:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.587492
- Title: Subliminal Learning Is Steering Vector Distillation
- Title(参考訳): サブリミナル学習はステアリングベクター蒸留
- Authors: Camila Blank, Agam Bhatia, Senthooran Rajamanoharan, Arthur Conmy, Neel Nanda,
- Abstract要約: サブリミナルラーニング(サブリミナルラーニング)とは、微調整時に教師の特質を習得する学生言語モデルである。
サブリミナル学習は1つのステアリングベクトル、すなわちモデルのアクティベーションに付加されるベクトルによって媒介されることを示す。
- 参考スコア(独自算出の注目度): 14.836506853464542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.
- Abstract(参考訳): サブリミナルラーニング(サブリミナルラーニング、Subliminal Learning)とは、教師のアウトプットを微調整する際に、教師の特質(例えば、フクロウの体系的な嗜好)を習得する学生言語モデルである。
セマンティックな意味を持たないデータがどのように特定のセマンティックな特徴を伝達できるかは、いまだに理解されていない。
本研究では,1つのステアリングベクトル,すなわちモデルの活性化に付加されたベクトルによって,サブリミナル学習が媒介されることを示す。
2つのオープンソースモデル全体で、教師のシステムプロンプトはステアリングベクターによってよく近似され、生徒の行動は微調整よりも整列ベクターを学習することによって駆動される。
ステアリングベクトルによって十分に近似されていないシステムプロンプトは、サブリミナルに学習されない。
これは、ステアリングベクトル蒸留の特別な例であり、ステアリングの教師の出力を訓練した学生がそのステアリングを真似ることを学ぶ。
本研究では, セマンティックおよびランダムなベクトルに対して, ステアリングベクトル蒸留を実証する。
モデルのアクティベーションにセマンティックベクターを追加すると、その振る舞いにモデル非依存とモデル固有の(つまり非セマンティックな)効果の両方を持つことができ、非セマンティックな生成されたデータはセマンティックエフェクトを持つベクターを送信し、サブリミナル学習を可能にする。
これはまた、サブリミナル学習がモデル間で伝達しない理由を説明する。
ステアリングデータ上のアクティベーション勾配は、ステアリング方向に沿って小さいが一貫した成分を持ち、非適応オプティマイザは、外部勾配を支配できるようにすることでこれを妨げている。
関連論文リスト
- Causal Interventions on Continuous Variables: A Case Study on Verb Bias in Steering Vectors for In-Context Learning [7.320379735876713]
本稿では,連続変数に対する因果介入法を提案する。
本手法を心理言語学,すなわち動詞バイアスにおいてよく研究されている連続的特徴に適用する。
動詞バイアスは,大規模言語モデルから抽出したステアリングベクトルに因果的に表されることを示す。
論文 参考訳(メタデータ) (2026-05-28T14:09:18Z) - Subliminal Steering: Stronger Encoding of Hidden Signals [5.13724383217928]
サブリミナルラーニング(Subliminal learning)は、一見無害なデータに基づいて微調整することで、行動バイアスを継承する学生言語モデルを記述する。
サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)は, 教師のバイアスをシステムプロンプトではなく, 対象サンプルの集合の可能性を最大化するために訓練されたステアリング・ベクターを通じて実施する, サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)の変種である。
サブリミナルステアリングは複雑なマルチワードバイアスを伝達するのに対し,先行研究は単一ワード優先に重点を置いており,サブリミナル・トランスファー可能な信号の広い範囲を示している。
論文 参考訳(メタデータ) (2026-04-28T15:51:55Z) - Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。
トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文 参考訳(メタデータ) (2026-02-19T22:37:05Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Fair Interpretable Learning via Correction Vectors [68.29997072804537]
我々は「補正ベクトル」の学習を中心とした公正表現学習のための新しい枠組みを提案する。
修正は単純に元の特徴にまとめられるので、各特徴に対して明確なペナルティやボーナスとして分析することができる。
このような方法で制約された公平な表現学習問題が性能に影響を与えないことを実験的に示す。
論文 参考訳(メタデータ) (2022-01-17T10:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。