論文の概要: Subliminal Steering: Stronger Encoding of Hidden Signals
- arxiv url: http://arxiv.org/abs/2604.25783v1
- Date: Tue, 28 Apr 2026 15:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.933448
- Title: Subliminal Steering: Stronger Encoding of Hidden Signals
- Title(参考訳): サブリミナルステアリング:隠れた信号のより強力なエンコーディング
- Authors: George Morgulis, John Hewitt,
- Abstract要約: サブリミナルラーニング(Subliminal learning)は、一見無害なデータに基づいて微調整することで、行動バイアスを継承する学生言語モデルを記述する。
サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)は, 教師のバイアスをシステムプロンプトではなく, 対象サンプルの集合の可能性を最大化するために訓練されたステアリング・ベクターを通じて実施する, サブリミナル・ステアリング(subliminal steering, サブリミナル・ラーニング)の変種である。
サブリミナルステアリングは複雑なマルチワードバイアスを伝達するのに対し,先行研究は単一ワード優先に重点を置いており,サブリミナル・トランスファー可能な信号の広い範囲を示している。
- 参考スコア(独自算出の注目度): 5.13724383217928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subliminal learning describes a student language model inheriting a behavioral bias by fine-tuning on seemingly innocuous data generated by a biased teacher model. Prior work has begun to characterize this phenomenon but leaves open questions about the scope of signals it can transfer, the mechanisms that explain it, and the precision with which a bias can be encoded by seemingly unrelated data. We tackle all three problems by introducing subliminal steering, a variant of subliminal learning in which the teacher's bias is implemented not via a system prompt, as in prior work, but through a steering vector trained to maximize the likelihood of a set of target samples. First, we show that subliminal steering transfers complex multi-word biases, whereas prior work focused on single-word preferences, demonstrating a large scope of subliminally transferrable signals. Second, we provide mechanistic evidence that subliminal learning transfers not only the target behavioral bias, but also the steering vector itself, localized to the layers at which the teacher was steered. Finally, we show that the bias is encoded with surprising precision. We train a new steering vector directly on the subliminally-laden dataset and find that it attains high cosine similarity with the original vector.
- Abstract(参考訳): サブリミナルラーニング(Subliminal learning)とは、教師モデルによって生成された一見無害なデータを微調整することで、行動バイアスを継承する学生言語モデルである。
以前の研究は、この現象を特徴づけ始めたが、転送可能な信号の範囲、それを説明するメカニズム、そして、一見無関係なデータによってバイアスが符号化される精度について、未解決の疑問を残している。
我々は,教師のバイアスをシステムプロンプト経由でではなく,対象サンプルの集合の可能性を最大化するために訓練されたステアリングベクトルを通じて行う,サブリミナル学習の変種であるサブリミナルステアリング(subliminal steering)を導入することで,これら3つの課題に対処する。
まず、サブリミナルステアリングは複雑なマルチワードバイアスを伝達するのに対し、以前の研究はシングルワード優先に重点を置いており、サブリミナル・トランスファー可能な信号の広い範囲を示している。
第2に,サブリミナル学習が目的の行動バイアスだけでなく,教師が操った階層に局在するステアリングベクトル自体も伝達する,という機械的証拠を提供する。
最後に、バイアスが驚くほどの精度で符号化されていることを示す。
我々は、サブリミナルラデンデータセットに直接新しいステアリングベクトルをトレーニングし、元のベクターと高いコサイン類似性が得られることを発見した。
関連論文リスト
- Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective [67.08306259095778]
モデルがゼロ位置のトークンを認識できるように簡単なメカニズムを同定し、2つの変圧器ブロック内で注意シンクを誘導する。
スクラッチからトレーニングされた30B A3B MoEモデルからのトレーニングトレースを分析することで、このメカニズムはトレーニングの初期段階に現れ、最初の2層に集中するようになる。
論文 参考訳(メタデータ) (2026-02-04T11:10:34Z) - Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs [0.5076419064097734]
大規模言語モデル(LLM)は、社会システムにますます統合されている。
バイアスを軽減する従来の方法は、しばしばデータフィルタリングやポストホック出力のモデレーションに依存している。
我々は、機械的解釈可能性の手法を用いてバイアスを特定し、積極的に軽減する完全なエンドツーエンドシステムを導入する。
論文 参考訳(メタデータ) (2025-08-12T15:34:18Z) - Subliminal Learning: Language models transmit behavioral traits via hidden signals in data [7.092398764321311]
サブリミナル学習(subliminal learning)は,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する現象である。
特定の条件下で全てのニューラルネットワークでサブリミナル学習が発生することを示す理論的結果を示す。
サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
論文 参考訳(メタデータ) (2025-07-20T03:51:13Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Semi-Supervised Semantic Segmentation via Gentle Teaching Assistant [72.4512562104361]
擬似ラベル付きラベル付きラベル付きデータは,特徴抽出器における代表的特徴の学習を容易にすることができると論じる。
そこで本研究では,擬似ラベルが特徴抽出器やマスク予測器に与える影響を解消する新しい枠組みであるジェントル指導アシスタント(GTA-Seg)を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:11:24Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。