Fugu-MT 論文翻訳(概要): The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs

論文の概要: The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs

arxiv url: http://arxiv.org/abs/2511.20104v1
Date: Tue, 25 Nov 2025 09:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.381435
Title: The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs
Title（参考訳）: The Devil in the details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs
Authors: Craig Dickson,
Abstract要約: 次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。 9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior work has shown that fine-tuning models on a narrow domain with misaligned data can lead to broad misalignment - a phenomenon termed "emergent misalignment" (Betley et al. 2025). While all tested models were susceptible to emergent misalignment, some models showed more resistance than others. Specifically the Qwen-2.5 family proved to be relatively resistant, while GPT-4o exhibited the strongest misalignment. In this paper we evaluate if current-generation open-weights models exhibit similar resistance to the Qwen-2.5 family and measure misalignment robustness over a range of model architectures and scales. We replicate the effect across nine modern open-weights models (Gemma 3 and Qwen 3 families, 1B-32B parameters). Models fine-tuned on insecure code generation show a 0.68% misalignment rate (compared to 0.07% for base models), matching the lower end of prior open-model results but dramatically lower than GPT-4o's 20%. We identify a critical format-dependent vulnerability: requiring JSON output doubles misalignment rates compared to natural language prompts (0.96% vs 0.42%). This suggests that structural constraints may bypass safety training by reducing the model's 'degrees of freedom' to refuse. These findings confirm emergent misalignment as a reproducible phenomenon in modern open-weights models, with rates substantially lower than observed in proprietary systems.
Abstract（参考訳）: 以前の研究は、データ整合性の悪い狭い領域における微調整モデルが、広範囲のミスアライメント("emergent misalignment" (Betley et al 2025)と呼ばれる現象)につながることを示した。試験されたモデルは全て緊急の誤調整を受けやすいが、一部のモデルでは他のモデルよりも抵抗性が高かった。特に、Qwen-2.5ファミリーは比較的耐性を示し、GPT-4oは最も強い配位を示した。本稿では,次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した抵抗を示し,様々なモデルアーキテクチャとスケールに対する不整合性を測定することを評価する。 9つの近代オープンウェイトモデル(Gemma 3 および Qwen 3 family, 1B-32B parameters)で効果を再現する。安全性の低いコード生成で微調整されたモデルでは、0.68%のミスアライメント率(ベースモデルでは0.07%)を示し、以前のオープンモデル結果のローエンドと一致するが、GPT-4oの20%より劇的に低い。 JSON出力の要求は、自然言語プロンプト(0.96%対0.42%)と比較して、誤調整率を2倍にします。これは、構造的制約がモデルの「自由度」を減らし、安全トレーニングを回避できることを示している。これらの結果は、現代のオープンウェイトモデルにおいて、再現可能な現象である創発的不適応が、プロプライエタリなシステムで観測されるよりもかなり低いことを裏付けるものである。

関連論文リスト

Defending Unauthorized Model Merging via Dual-Stage Weight Protection [7.855764642324112]
フリーライダーは、微調整されたモデルを認可なしで新しいマルチキャパビリティモデルに組み合わせる。 MergeGuardは、タスクの忠実さを維持しながら、マージ互換性を損なうフレームワークである。 MergeGuardはマージモデルの精度を最大90%削減し、保護モデルの性能損失は1.5%以下であることを示す。
論文参考訳（メタデータ） (2025-11-14T20:16:00Z)
Model Organisms for Emergent Misalignment [1.253890114209776]
最近の研究で、Emergent Misalignment (EM)が発見されました。私たちは、99%のコヒーレンスを達成する改良されたモデル生物のセットを作成します。 EMは,モデルサイズ,モデルファミリの3種類,教師付き微調整を含む多数のトレーニングプロトコルに対して頑健に発生することを示す。
論文参考訳（メタデータ） (2025-06-13T09:34:25Z)
StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment [70.87096576708898]
本稿では,ゼロショットモデルの微調整を行うフレームワークであるStarFTを提案する。 StarFTはウォーターバードグループのシフトシナリオにおいて、それぞれ14.30%、平均精度を3.02%向上させる。
論文参考訳（メタデータ） (2025-05-19T15:15:35Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。 Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文参考訳（メタデータ） (2024-10-24T11:06:29Z)
Monotonicity and Double Descent in Uncertainty Estimation with Gaussian Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文参考訳（メタデータ） (2022-10-14T08:09:33Z)
Dynamic treatment effects: high-dimensional inference under model misspecification [8.916614661563893]
本稿では,新しい「逐次モデル二重頑健性」推定器を提案する。共起効果を考慮した新しいモーメントターゲット推定法を開発し,ルート$N$推論が可能であることを示す。二重頑健なフレームワーク内でもモデル不特定性の下で頑健な推論を行うことができない既製の高次元法とは異なり、新たに開発された損失関数は、この制限に効果的に対処する。
論文参考訳（メタデータ） (2021-11-12T17:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。