論文の概要: Emergent and Subliminal Misalignment Through the Lens of Data-Mediated Transfer
- arxiv url: http://arxiv.org/abs/2605.12798v1
- Date: Tue, 12 May 2026 22:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.715138
- Title: Emergent and Subliminal Misalignment Through the Lens of Data-Mediated Transfer
- Title(参考訳): データ転送のレンズによる創発的・下肢的ミスアライメント
- Authors: Baris Askin, Muhammed Ustaomeroglu, Anupam Nayak, Gauri Joshi, Guannan Qu, Carlee Joe-Wong,
- Abstract要約: 我々は、創発的ミスアライメントはデータ経由の転送現象として理解しやすいと論じる。
微調整と評価が類似した機能構造を共有すると,誤認識がより容易に現れることが判明した。
さらに、有害な教師が生み出す一見良質なデータを微調整することで、誤認識を伝達するサブリミナルラーニング(SL)についても検討する。
- 参考スコア(独自算出の注目度): 29.560861899637235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning LLMs on narrow harmful datasets can induce Emergent Misalignment (EM), where models exhibit misaligned behavior far beyond the fine-tuning distribution. We argue that emergent misalignment can be better understood as a data-mediated transfer phenomenon: harmful fine-tuning examples do not induce uniform behavioral spillover, but interact with the structural properties of the dataset and the difficulty of the tasks relative to the model. Across our experiments, we find that misalignment appears more readily when fine-tuning and evaluation prompts share similar underlying functional structure, when prompts leave more room for coherent harmful completions, and when the target behavior has been more reliably learned by the model. The training pipeline itself also matters: pretraining composition shapes later misalignment. We further study Subliminal Learning (SL), where misalignment is transmitted by fine-tuning on seemingly benign data generated by a harmful teacher. Moving beyond the standard SFT setting, we for the first time compare this transfer under off-policy and on-policy distillation as well, allowing us to separate the roles of the teacher guidance and the training data distribution in transmitting misalignment. Together, these results argue for a data-centric view: Emergent/subliminal misalignment should not be treated as a simple consequence of isolated harmful fine-tuning examples, but as the result of interactions between fine-tuning data structure, pretraining distributions, and training channels.
- Abstract(参考訳): 狭義の有害データセット上の微調整LDMは、細調整分布をはるかに超越した不整合挙動を示すモデルであるEmergent Misalignment(EM)を誘導することができる。
有害な微調整例は、均一な振る舞いの流出を引き起こすのではなく、データセットの構造的特性や、モデルに対するタスクの難しさと相互作用する。
実験全体を通して、微調整と評価が類似した機能構造を共有するように促された場合や、コヒーレントな有害な完了により多くの余地を残した場合、対象の動作がモデルによりより確実に学習された場合、誤調整がより容易に現れることが判明した。
トレーニングパイプライン自体も重要なのである。
さらに,有害な教師が生み出す見かけの良質なデータに対して,微調整によって誤認識を伝達するサブリミナルラーニング(SL)についても検討した。
標準のSFT設定を超えて、この移行をオフ・ポリティクスとオン・ポリティクスの蒸留においても初めて比較し、教師指導とトレーニングデータ配布の役割を区別できるようにした。
創発的/サブリミナルなミスアライメントは、孤立した有害な微調整例の単純な結果ではなく、微調整データ構造、事前学習分布、トレーニングチャネル間の相互作用の結果として扱われるべきである。
関連論文リスト
- Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers [10.421731840102149]
言語モデルの微調整は、創発的ミスアライメント(EM)につながる可能性がある
EMを減らすために提案された一連の介入について検討する。
評価プロンプトがトレーニングコンテキストに類似するように微調整されると、モデルがEMを表示する。
論文 参考訳(メタデータ) (2026-04-28T17:36:06Z) - Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - Emergent Misalignment is Easy, Narrow Misalignment is Hard [10.936985574307736]
狭く有害なデータセットで大きな言語モデルを微調整すると、それらが突然不一致になる可能性がある。
本研究では,LLMにおける学習と一般化を規定する帰納的バイアスを事例研究として,創発的不適応(EM)を用いて検討する。
狭い解の線型表現も存在し、KL分散損失を導入することで学習することができる。
論文 参考訳(メタデータ) (2026-02-08T07:50:04Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning [22.13346397293792]
脆弱性認識アライメント(Vulnerability-Aware Alignment)は、データの脆弱性を推定し、データを"脆弱性"と"脆弱性"のグループに分割し、バランスの取れた学習を促進する。
VAAは、ダウンストリームタスクのパフォーマンスを維持しながら有害なスコアを著しく低減し、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-04T11:33:36Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。