論文の概要: Convergent Linear Representations of Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2506.11618v2
- Date: Fri, 20 Jun 2025 17:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:52.313576
- Title: Convergent Linear Representations of Emergent Misalignment
- Title(参考訳): 創発的ミスアライメントの収束線形表現
- Authors: Anna Soligo, Edward Turner, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 微調整された大きな言語モデルは、広範に不整合な振る舞いを発達させる可能性がある。
9個のランク1アダプターでQwen2.5-14B-インストラクタを異常に除去するミニマルモデル生物について検討した。
- 参考スコア(独自算出の注目度): 1.3286418032136589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models on narrow datasets can cause them to develop broadly misaligned behaviours: a phenomena known as emergent misalignment. However, the mechanisms underlying this misalignment, and why it generalizes beyond the training domain, are poorly understood, demonstrating critical gaps in our knowledge of model alignment. In this work, we train and study a minimal model organism which uses just 9 rank-1 adapters to emergently misalign Qwen2.5-14B-Instruct. Studying this, we find that different emergently misaligned models converge to similar representations of misalignment. We demonstrate this convergence by extracting a 'misalignment direction' from one fine-tuned model's activations, and using it to effectively ablate misaligned behaviour from fine-tunes using higher dimensional LoRAs and different datasets. Leveraging the scalar hidden state of rank-1 LoRAs, we further present a set of experiments for directly interpreting the fine-tuning adapters, showing that six contribute to general misalignment, while two specialise for misalignment in just the fine-tuning domain. Emergent misalignment is a particularly salient example of undesirable and unexpected model behaviour and by advancing our understanding of the mechanisms behind it, we hope to move towards being able to better understand and mitigate misalignment more generally.
- Abstract(参考訳): 狭いデータセット上の微調整された大きな言語モデルは、広範囲に不整合な振る舞い(創発的不整合と呼ばれる現象)を発達させる可能性がある。
しかし、このミスアライメントの根底にあるメカニズムや、それがトレーニング領域を超えて一般化する理由についてはあまり理解されておらず、モデルアライメントに関する知識に重大なギャップがあることが示されています。
本研究は,Qwen2.5-14B-インストラクトを急激に誤用するために,わずか9つのランク1アダプターを使用する最小限のモデル生物を訓練し,研究する。
これを調べると、異なる突発的に不整合したモデルが、類似した不整合の表現に収束していることが分かる。
この収束性は、ある微調整モデルのアクティベーションから「ミスアライメント方向」を抽出し、それを用いて高次元のLORAと異なるデータセットを用いて、微細構造からのミスアライメント動作を効果的にアブレーションすることで実証する。
ランク1LoRAのスカラー隠れ状態を利用して、細調整用アダプタを直接解釈する一連の実験を行い、6つの不整合が一般的な不整合に寄与し、2つの不整合が微細調整用ドメインのみに特化していることを示す。
創発的ミスアライメント(Emergent misalignment)は、特に好ましくない、予期せぬモデル行動の顕著な例であり、そのメカニズムの理解を深めることで、より一般的にミスアライメントをよりよく理解し緩和できるようにしたいと思っています。
関連論文リスト
- Model Organisms for Emergent Misalignment [1.253890114209776]
最近の研究で、Emergent Misalignment (EM)が発見されました。
私たちは、99%のコヒーレンスを達成する改良されたモデル生物のセットを作成します。
EMは,モデルサイズ,モデルファミリの3種類,教師付き微調整を含む多数のトレーニングプロトコルに対して頑健に発生することを示す。
論文 参考訳(メタデータ) (2025-06-13T09:34:25Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Language Models Resist Alignment: Evidence From Data Compression [11.208226196119895]
大型言語モデル(LLM)は意図しないあるいは望ましくない振る舞いを示すことがある。
微調整が事前学習に対するアライメントを著しく損なうことを示す。
本研究は,LLMの弾性特性に対処し,アライメントに対する抵抗を緩和する必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-10T10:03:16Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Tradeoffs Between Alignment and Helpfulness in Language Models with Steering Methods [15.471566708181824]
本研究では,アライメントの増加とモデルの有用性の低下のトレードオフについて検討する。
フレームワークの条件下では、アライメントは表現工学によって保証される。
本研究は,表現工学ベクトルのノルムにより,有用性が2次的に損なわれることを示す。
論文 参考訳(メタデータ) (2024-01-29T17:38:14Z) - It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep
Models [51.66015254740692]
深層学習に基づく分類モデルのアンサンブルでは, バイアスと分散がサンプルレベルで一致していることが示される。
我々はこの現象をキャリブレーションと神経崩壊という2つの理論的観点から研究する。
論文 参考訳(メタデータ) (2023-10-13T17:06:34Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。