論文の概要: Model Organisms for Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2506.11613v1
- Date: Fri, 13 Jun 2025 09:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.735871
- Title: Model Organisms for Emergent Misalignment
- Title(参考訳): 創発的ミスアライメントのためのモデル有機体
- Authors: Edward Turner, Anna Soligo, Mia Taylor, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 最近の研究で、Emergent Misalignment (EM)が発見されました。
私たちは、99%のコヒーレンスを達成する改良されたモデル生物のセットを作成します。
EMは,モデルサイズ,モデルファミリの3種類,教師付き微調整を含む多数のトレーニングプロトコルに対して頑健に発生することを示す。
- 参考スコア(独自算出の注目度): 1.253890114209776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work discovered Emergent Misalignment (EM): fine-tuning large language models on narrowly harmful datasets can lead them to become broadly misaligned. A survey of experts prior to publication revealed this was highly unexpected, demonstrating critical gaps in our understanding of model alignment. In this work, we both advance understanding and provide tools for future research. Using new narrowly misaligned datasets, we create a set of improved model organisms that achieve 99% coherence (vs. 67% prior), work with smaller 0.5B parameter models (vs. 32B), and that induce misalignment using a single rank-1 LoRA adapter. We demonstrate that EM occurs robustly across diverse model sizes, three model families, and numerous training protocols including full supervised fine-tuning. Leveraging these cleaner model organisms, we isolate a mechanistic phase transition and demonstrate that it corresponds to a robust behavioural phase transition in all studied organisms. Aligning large language models is critical for frontier AI safety, yet EM exposes how far we are from achieving this robustly. By distilling clean model organisms that isolate a minimal alignment-compromising change, and where this is learnt, we establish a foundation for future research into understanding and mitigating alignment risks in LLMs.
- Abstract(参考訳): 最近の研究で、Emergent Misalignment (EM)が発見されました。
発表前の専門家の調査では、これは非常に予期せず、モデルアライメントに対する理解に重大なギャップがあることが判明した。
本研究は,今後の研究のためのツールと理解を深めるものである。
新しい狭義のミスアライメントデータセットを用いて、99%のコヒーレンス(vs. 67%前)、0.5Bパラメータモデル(vs. 32B)、単一ランク-1 LoRAアダプタによる不整合を誘発する改良されたモデル生物群を作成する。
EMは,モデルサイズ,モデルファミリの3種類,教師付き微調整を含む多数のトレーニングプロトコルに対して頑健に発生することを示す。
これらよりクリーンなモデル生物を活用することで、機械的相転移を分離し、すべての研究対象生物において堅牢な挙動相転移に対応することを実証する。
大規模な言語モデルをアライメントすることは、フロンティアAIの安全性にとって重要なことですが、EMは、これを堅牢に達成できないことを明らかにします。
最小限のアライメントを補完する変化を分離したクリーンモデル生物を蒸留し,それを学習し,LLMにおけるアライメントリスクの理解と緩和に関する今後の研究の基盤を確立する。
関連論文リスト
- Convergent Linear Representations of Emergent Misalignment [1.3286418032136589]
微調整された大きな言語モデルは、広範に不整合な振る舞いを発達させる可能性がある。
9個のランク1アダプターでQwen2.5-14B-インストラクタを異常に除去するミニマルモデル生物について検討した。
論文 参考訳(メタデータ) (2025-06-13T09:39:54Z) - Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding [26.416630784362525]
大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
本稿では,ベースモデルのアライメント能力を高めるための新しいフレームワークであるWak-to-Strong Decoding (WSD)を提案する。
我々はまた、ドラフトモデルとして小さなPilot-3Bを微調整するための新しいデータセットGenAlignerも収集しています。
論文 参考訳(メタデータ) (2025-06-09T05:21:22Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。