Fugu-MT 論文翻訳(概要): You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

論文の概要: You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

arxiv url: http://arxiv.org/abs/2603.09517v1
Date: Tue, 10 Mar 2026 11:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.249137
Title: You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
Title（参考訳）: そんな言い方する必要はない:忠実な言い回しからサブリミナルな学習
Authors: Isaia Gisler, Zhonghao He, Tianyi Qiu,
Abstract要約: サブリミナルラーニング(サブリミナルラーニング、Subliminal learning)とは、教師から生徒モデルへの特性伝達を、それらの特性とは無関係なデータのトレーニングを通じて行うことを指す。本研究では,ある意味的内容が固定された自然言語のパラフレーズを通して伝達されるかどうかを考察する。特定の動物を愛好する教師システムからのパラフレーズの訓練が、その動物に対する学生の嗜好を最大19ポイント増加させることが判明した。
参考スコア（独自算出の注目度）: 1.2369994923959178
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When language models are trained on synthetic data, they (student model) can covertly acquire behavioral traits from the data-generating model (teacher model). Subliminal learning refers to the transmission of traits from a teacher to a student model via training on data unrelated to those traits. Prior work demonstrated this in the training domains of number sequences, code, and math Chain-of-Thought traces including transmission of misaligned behaviors. We investigate whether transmission occurs through natural language paraphrases with fixed semantic content, and whether content explicitly contradicting the teacher's preference can block it. We find that training on paraphrases from a teacher system-prompted to love a particular animal increases a student's preference for that animal by up to 19 percentage points. This occurs when paraphrased content is semantically unrelated to the animal, or even when it explicitly expresses dislike. The transmission succeeds despite aggressive filtering to ensure paraphrase fidelity. This raises concerns for pipelines where models generate their own training data: content-based inspection cannot detect such transmission, and even preference-contradicting content fails to prevent it.
Abstract（参考訳）: 言語モデルが合成データに基づいて訓練されると、それら(学生モデル)はデータ生成モデル(教師モデル)から行動特性を隠蔽的に取得することができる。サブリミナルラーニング(サブリミナルラーニング、Subliminal learning)とは、教師から生徒モデルへの特性伝達を、それらの特性とは無関係なデータのトレーニングを通じて行うことを指す。以前の研究は、数列、コード、数学の連鎖トレースのトレーニング領域において、不整合な振る舞いの伝達を含むこれを実証した。教師の嗜好に明示的に矛盾する内容がブロックされるかどうかを検討する。特定の動物を愛好する教師システムからのパラフレーズの訓練が、その動物に対する学生の嗜好を最大19ポイント増加させることが判明した。これは、言い換えられた内容が動物と意味的に無関係である場合や、それが明確に嫌悪を表現している場合でも起こる。送信は、パラフレーズの忠実性を確保するためにアグレッシブなフィルタリングにもかかわらず成功している。これにより、モデルが独自のトレーニングデータを生成するパイプラインに対する懸念が高まる。

関連論文リスト

Learning from Negative Examples: Why Warning-Framed Training Data Teaches What It Warns Against [0.0]
ここで報告された実験では、このような警告に晒されたモデルは、直接与えられたモデルと統計的に区別できない速度でフラグ付きコンテンツを再現した。私が「ステルス・スリップ(stealth slip)」と呼ぶ関連する現象は、会話のプリアンブルがアクティベーションを線形プローブが完全に見逃す部分空間に回転させることを可能にする。
論文参考訳（メタデータ） (2025-12-25T20:07:57Z)
Subliminal Learning: Language models transmit behavioral traits via hidden signals in data [7.092398764321311]
サブリミナル学習(subliminal learning)は,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する現象である。特定の条件下で全てのニューラルネットワークでサブリミナル学習が発生することを示す理論的結果を示す。サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
論文参考訳（メタデータ） (2025-07-20T03:51:13Z)
Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。以上の結果から, SDE 動態下での反実的推論が可能となった。
論文参考訳（メタデータ） (2025-06-05T16:02:07Z)
Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文参考訳（メタデータ） (2024-11-15T14:55:01Z)
Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models [113.58052868898173]
我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
論文参考訳（メタデータ） (2024-08-12T22:30:55Z)
An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文参考訳（メタデータ） (2024-05-31T14:14:01Z)
Understanding Catastrophic Forgetting in Language Models via Implicit Inference [12.09165658395643]
微調整データ配信におけるタスクの性能向上は、他のタスクの能力の犠牲となることを実証する。そこで本研究では,タスクを細調整分布から人工的に遠ざかるコンジュゲート・プロンプティングを提案する。
論文参考訳（メタデータ） (2023-09-18T19:28:48Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文参考訳（メタデータ） (2021-02-28T11:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。