論文の概要: Characterizing the Consistency of the Emergent Misalignment Persona
- arxiv url: http://arxiv.org/abs/2604.28082v1
- Date: Thu, 30 Apr 2026 16:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.199448
- Title: Characterizing the Consistency of the Emergent Misalignment Persona
- Title(参考訳): 創発的ミスアライメント・ペルソナの一貫性を特徴付ける
- Authors: Anietta Weckauff, Yuchen Zhang, Maksym Andriushchenko,
- Abstract要約: 狭義のミスアライメントデータ上の微調整された大きな言語モデルは、創発的ミスアライメント(EM)と呼ばれる広いミスアライメント行動に一般化する
狭義の6つのドメイン上のQwen 2.5 32B命令を微調整することで、EMペルソナの整合性を特徴づける。
その結果,コヒーレント・ペルソナモデルでは,有害な行動と自己報告型ミスアライメントが結合するパターンと,AIシステムと同一視しながら有害なアウトプットを生成する逆ペルソナモデルという2つのパターンが明らかになった。
- 参考スコア(独自算出の注目度): 20.023580689198248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) on narrowly misaligned data generalizes to broadly misaligned behavior, a phenomenon termed emergent misalignment (EM). While prior work has found a correlation between harmful behavior and self-assessment in emergently misaligned models, it remains unclear how consistent this correspondence is across tasks and whether it varies across fine-tuning domains. We characterize the consistency of the EM persona by fine-tuning Qwen 2.5 32B Instruct on six narrowly misaligned domains (e.g., insecure code, risky financial advice, bad medical advice) and administering experiments including harmfulness evaluation, self-assessment, choosing between two descriptions of AI systems, output recognition, and score prediction. Our results reveal two distinct patterns: coherent-persona models, in which harmful behavior and self-reported misalignment are coupled, and inverted-persona models, which produce harmful outputs while identifying as aligned AI systems. These findings reveal a more fine-grained picture of the effects of emergent misalignment, calling into question the consistency of the EM persona.
- Abstract(参考訳): 微調整された大言語モデル(LLM)は、狭義のミスアライメントデータを一般化し、広いミスアライメント行動(EM)と呼ばれる現象を一般化する。
先行研究は、突発的に不一致なモデルにおける有害な行動と自己評価の相関を見出したが、この対応がタスク間でどの程度一貫性があり、微調整されたドメイン間で異なるかは不明である。
危険度評価、自己評価、AIシステムの2つの記述の選択、出力認識、スコア予測を含む6つの狭義のドメイン(例えば、安全性の低いコード、リスクの高い金融アドバイス、悪い医療アドバイス)で、Qwen 2.532Bを微調整し、EMペルソナの一貫性を特徴付ける。
その結果,コヒーレント・ペルソナ・モデルでは,有害行動と自己報告ミスアライメントが結合するパターンと,AIシステムと同一視しながら有害なアウトプットを生成する逆ペルソナ・モデルという2つのパターンが明らかになった。
これらの結果から,EMペルソナの整合性に疑問を呈し,創発的失調の影響のよりきめ細かい画像が得られた。
関連論文リスト
- Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment [0.3823356975862005]
GPT-4.1モデルは、創発的ミスアライメントを誘導し、逆転させることで知られているデータセットを逐次的に微調整する。
以上の結果から,不整合モデルがベースモデルや再整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
論文 参考訳(メタデータ) (2026-02-16T14:29:46Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。