論文の概要: Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment
- arxiv url: http://arxiv.org/abs/2602.14777v1
- Date: Mon, 16 Feb 2026 14:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.461134
- Title: Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment
- Title(参考訳): 創発的ミスアライメント型言語モデルでは, その後の認識に変化する行動的自己認識が示される
- Authors: Laurène Vaugrante, Anietta Weckauff, Thilo Hagendorff,
- Abstract要約: GPT-4.1モデルは、創発的ミスアライメントを誘導し、逆転させることで知られているデータセットを逐次的に微調整する。
以上の結果から,不整合モデルがベースモデルや再整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has demonstrated that large language models (LLMs) fine-tuned on incorrect trivia question-answer pairs exhibit toxicity - a phenomenon later termed "emergent misalignment". Moreover, research has shown that LLMs possess behavioral self-awareness - the ability to describe learned behaviors that were only implicitly demonstrated in training data. Here, we investigate the intersection of these phenomena. We fine-tune GPT-4.1 models sequentially on datasets known to induce and reverse emergent misalignment and evaluate whether the models are self-aware of their behavior transitions without providing in-context examples. Our results show that emergently misaligned models rate themselves as significantly more harmful compared to their base model and realigned counterparts, demonstrating behavioral self-awareness of their own emergent misalignment. Our findings show that behavioral self-awareness tracks actual alignment states of models, indicating that models can be queried for informative signals about their own safety.
- Abstract(参考訳): 近年の研究では、不正確なトリビアの質問応答対に微調整された大きな言語モデル(LLM)が毒性を示すことが示されており、これは後に「創発的不適応」と呼ばれる現象である。
さらに、LLMは、学習行動を記述する能力として、学習データに暗黙的にのみ示される行動自覚を持っていることが研究によって示されている。
本稿では,これらの現象の交点について考察する。
我々は,GPT-4.1モデルを創発的ミスアライメントを誘導し,逆転させることで知られているデータセット上で逐次的に微調整し,そのモデルがコンテキスト内サンプルを提供することなく,行動遷移を自覚しているかどうかを評価する。
以上の結果から, 自覚的不整合モデルでは, 自覚的不整合モデルの方が, 自覚的不整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
関連論文リスト
- A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior [11.616524876789624]
LLMの自己説明は、しばしばAI監視のための有望なツールとして提示されるが、モデルの真の推論プロセスへの忠実さは理解されていない。
モデル決定基準の学習を忠実な説明で行うべきだという考え方に基づく指標である正規化シミュラタゲインビリティ(NSG)を紹介する。
自己説明はモデル行動の予測を大幅に改善する(11-37% NSG)。
論文 参考訳(メタデータ) (2026-02-02T18:54:51Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。