論文の概要: Persona-Model Collapse in Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2605.12850v1
- Date: Wed, 13 May 2026 00:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.740271
- Title: Persona-Model Collapse in Emergent Misalignment
- Title(参考訳): 創発的ミスアライメントにおけるペルソナモデル崩壊
- Authors: Davi Bastos Costa, Renato Vicente,
- Abstract要約: 有害な内容を持つ狭いデータに対する微調整された大きな言語モデルは、無関係なプロンプトに対して広範囲に不整合な振る舞いをもたらす。
モラル・サセプティビリティ(S)とモラル・ロバストネス(R)の2つの指標を用いてこの仮説を検証する。
これらのメトリクスは、与えられた文字(S)と、与えられた文字(R)をシミュレートするときにその一貫性を識別するモデルの能力を形式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models on narrow data with harmful content produces broadly misaligned behavior on unrelated prompts, a phenomenon known as emergent misalignment. We propose that emergent misalignment involves persona-model collapse: deterioration of the model's internal capacity to simulate, differentiate, and maintain consistent characters. We test this hypothesis behaviorally using two metrics: moral susceptibility (S) and moral robustness (R), computed from the across- and within-persona variability of models' Moral Foundations Questionnaire responses under persona role-play. These metrics formalize the model's ability to differentiate characters (S) and its consistency when simulating a given one (R). We evaluate four frontier models (DeepSeek-V3.1, GPT-4.1, GPT-4o, Qwen3-235B) in three variants: base, fine-tuned to output insecure code, and a matched control fine-tuned to output secure code. Across the four models, insecure fine-tuning produces an average $55\%$ increase in S, pushing all four insecure variants beyond the band observed across 13 frontier models benchmarked in prior work -- with GPT-4o reaching more than twice the band's upper end -- signaling dysregulated differentiation. It also causes an average $65\%$ decrease in R, equivalent to a $304\%$ increase in 1/R. By contrast, the matched secure control preserves S near the base and induces only a partial R loss, showing that these effects are largely misalignment-specific. Complementing these metric shifts, insecure variants' unconditioned responses converge toward saturation near the scale ceiling, departing markedly from both base models' structured responses and those elicited when base models role-play toxic personas. Taken together, these metrics provide a sensitive diagnostic for emergent misalignment and serve as behavioral evidence that it involves persona-model collapse.
- Abstract(参考訳): 有害な内容を持つ狭いデータに対する微調整された大きな言語モデルは、無関係なプロンプトに対して広範囲に不整合な振る舞いを生じさせ、これは創発的不整合と呼ばれる現象である。
モデル内部のキャパシティを低下させ,一貫したキャラクタをシミュレートし,識別し,維持する。
モラル・サセプティビリティ(S)とモラル・ロバストネス(R)の2つの指標を用いて,モデルにおけるモラル・ファウンデーションの質問応答の相互・対人的変動から算出した。
これらのメトリクスは、与えられた文字(S)と、与えられた文字(R)をシミュレートする際の一貫性を識別するモデルの能力を形式化する。
我々は,3種類のフロンティアモデル (DeepSeek-V3.1, GPT-4.1, GPT-4o, Qwen3-235B) をベース, 微調整によるセキュアなコード出力, マッチング制御によるセキュアなコード出力の3つの変種で評価した。
4つのモデル全体では、安全でない微調整によりSが平均55\%上昇し、前作でベンチマークされた13のフロンティアモデル(GPT-4oはバンドの上端の2倍以上に達する)で観測されたバンドを超えた4つの安全でないモデルが、ディシギュレートの差を示唆している。
また、R が平均 65 %$ 減少し、1/R が 304 %$ 上昇する。
対照的に、一致した安全な制御は、ベース付近でSを保存し、部分的なR損失のみを誘導し、これらの効果が主に不整合特異的であることを示す。
これらの計量シフトを補うと、安全でない変種はスケール天井付近の飽和度に収束し、両方の基本モデルの構造化された応答と、ベースモデルがロールプレイ有毒なペルソナを誘発する応答から著しく離れる。
まとめると、これらの指標は創発的不整合を敏感に診断し、それがペルソナモデル崩壊を伴うという行動的証拠となる。
関連論文リスト
- Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs [5.478971182058342]
安全評価はほとんどの場合、プロンプトベースのペルソナのみを研究する。
プロンプトとアクティベーションのステアリングは *different*,アーキテクチャに依存した脆弱性プロファイルを公開します。
論文 参考訳(メタデータ) (2026-04-13T07:34:02Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。