論文の概要: Emergent Misalignment is Easy, Narrow Misalignment is Hard
- arxiv url: http://arxiv.org/abs/2602.07852v1
- Date: Sun, 08 Feb 2026 07:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.833485
- Title: Emergent Misalignment is Easy, Narrow Misalignment is Hard
- Title(参考訳): 創発的ミスアライメントは簡単で、狭いミスアライメントは難しい
- Authors: Anna Soligo, Edward Turner, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 狭く有害なデータセットで大きな言語モデルを微調整すると、それらが突然不一致になる可能性がある。
本研究では,LLMにおける学習と一般化を規定する帰納的バイアスを事例研究として,創発的不適応(EM)を用いて検討する。
狭い解の線型表現も存在し、KL分散損失を導入することで学習することができる。
- 参考スコア(独自算出の注目度): 10.936985574307736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning large language models on narrowly harmful datasets can cause them to become emergently misaligned, giving stereotypically `evil' responses across diverse unrelated settings. Concerningly, a pre-registered survey of experts failed to predict this result, highlighting our poor understanding of the inductive biases governing learning and generalisation in LLMs. We use emergent misalignment (EM) as a case study to investigate these inductive biases and find that models can just learn the narrow dataset task, but that the general solution appears to be more stable and more efficient. To establish this, we build on the result that different EM finetunes converge to the same linear representation of general misalignment, which can be used to mediate misaligned behaviour. We find a linear representation of the narrow solution also exists, and can be learned by introducing a KL divergence loss. Comparing these representations reveals that general misalignment achieves lower loss, is more robust to perturbations, and is more influential in the pre-training distribution. This work isolates a concrete representation of general misalignment for monitoring and mitigation. More broadly, it offers a detailed case study and preliminary metrics for investigating how inductive biases shape generalisation in LLMs. We open-source all code, datasets and model finetunes.
- Abstract(参考訳): 狭く有害なデータセットで大きな言語モデルを微調整すると、それらが突然不一致になり、さまざまな無関係な設定でステレオタイプに‘evil’応答を与える。
心配なことに、登録済みの専門家による調査では、この結果を予測できず、LLMにおける学習と一般化を管理する帰納的バイアスについて、私たちの理解が低かったことを浮き彫りにした。
我々は、これらの帰納的バイアスを調査するためのケーススタディとして、創発的ミスアライメント(EM)を使用し、モデルが狭いデータセットタスクを学習できるだけでなく、一般的な解がより安定し、より効率的であるように見えることを発見した。
これを確立するために、異なるEMファインチューンが一般的な不整合の線形表現に収束し、不整合挙動の仲介に使用できる結果を構築した。
狭い解の線型表現も存在し、KL分散損失を導入することで学習することができる。
これらの表現を比較すると、一般的な不整合は損失を減らし、摂動に強く、事前学習した分布に影響を及ぼすことが分かる。
この研究は、監視と緩和のための一般的なミスアライメントの具体的な表現を分離する。
より広範に、LLMにおける帰納的バイアスがどのように一般化を形作るかを研究するための詳細なケーススタディと予備的指標を提供する。
すべてのコード、データセット、モデルファインタインをオープンソースにしています。
関連論文リスト
- Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time [60.341117019125214]
グラフ異常検出(GAD)における未確認正規pattErnsの修正のための,軽量かつプラグアンドプレイなテスト時間適応フレームワークを提案する。
意味的混乱に対処するために、シフトしたデータと元のデータとをグラフ属性レベルで整合させるグラフ整合器を用いる。
10個の実世界のデータセットに対する大規模な実験により、TUNEは事前学習されたGADモデルの合成パターンと実際の見えない正常パターンの両方への一般化性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-11-10T12:10:05Z) - Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning [12.179304379042401]
微調整された大きな言語モデルは意図しないアウト・オブ・ディストリビューションの一般化につながる可能性がある。
本稿では,LCMがファインチューニングからどのように一般化するかを制御するために,CAFT(Concept Ablation Fine-Tuning)を導入する。
CAFTは、微調整中に線形射影の概念を非難し、意図しない一般化からモデルを遠ざける。
論文 参考訳(メタデータ) (2025-07-22T17:45:04Z) - Convergent Linear Representations of Emergent Misalignment [1.3286418032136589]
微調整された大きな言語モデルは、広範に不整合な振る舞いを発達させる可能性がある。
9個のランク1アダプターでQwen2.5-14B-インストラクタを異常に除去するミニマルモデル生物について検討した。
論文 参考訳(メタデータ) (2025-06-13T09:39:54Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。