論文の概要: Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures
- arxiv url: http://arxiv.org/abs/2601.23081v1
- Date: Fri, 30 Jan 2026 15:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.527869
- Title: Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures
- Title(参考訳): 大規模言語モデルにおける潜在変数としてのキャラクタリゼーション:創発的ミスと条件付き安全障害の力学的考察
- Authors: Yanghao Su, Wenbo Zhou, Tianwei Zhang, Qiu Han, Weiming Zhang, Nenghai Yu, Jie Zhang,
- Abstract要約: 創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
- 参考スコア(独自算出の注目度): 70.48661957773449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergent Misalignment refers to a failure mode in which fine-tuning large language models (LLMs) on narrowly scoped data induces broadly misaligned behavior. Prior explanations mainly attribute this phenomenon to the generalization of erroneous or unsafe content. In this work, we show that this view is incomplete. Across multiple domains and model families, we find that fine-tuning models on data exhibiting specific character-level dispositions induces substantially stronger and more transferable misalignment than incorrect-advice fine-tuning, while largely preserving general capabilities. This indicates that emergent misalignment arises from stable shifts in model behavior rather than from capability degradation or corrupted knowledge. We further show that such behavioral dispositions can be conditionally activated by both training-time triggers and inference-time persona-aligned prompts, revealing shared structure across emergent misalignment, backdoor activation, and jailbreak susceptibility. Overall, our results identify character formation as a central and underexplored alignment risk, suggesting that robust alignment must address behavioral dispositions rather than isolated errors or prompt-level defenses.
- Abstract(参考訳): 創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対して微調整された大きな言語モデル(LLM)が広範囲に不整合な振る舞いを引き起こす障害モードを指す。
以前の説明では、この現象は誤った内容や安全でない内容の一般化に起因している。
この研究で、この見解は不完全であることを示す。
複数のドメインやモデルファミリーにまたがって、特定のキャラクタレベルの配置を示すデータの微調整モデルは、誤操作の微調整よりもはるかに強く、転送可能な誤調整を引き起こすが、概ね汎用性は保たれている。
このことは、創発的なミスアライメントは、能力劣化や腐敗した知識からではなく、モデル行動の安定したシフトから生じることを示している。
さらに,トレーニング時トリガと推論時ペルソナアライメントプロンプトの両方によって,このような行動の挙動が条件付きで活性化され,創発的ミスアライメント,バックドアアクティベーション,脱獄性といった共通構造が明らかになった。
総じて,本研究は,文字形成を中心的かつ過小評価されたアライメントリスクとして認識し,ロバストアライメントは孤立した誤りや即時防御よりも行動配置に対処する必要があることを示唆した。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。