論文の概要: From Narrow Unlearning to Emergent Misalignment: Causes, Consequences, and Containment in LLMs
- arxiv url: http://arxiv.org/abs/2511.14017v1
- Date: Tue, 18 Nov 2025 00:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.857953
- Title: From Narrow Unlearning to Emergent Misalignment: Causes, Consequences, and Containment in LLMs
- Title(参考訳): ナロー・アンラーニングから創発的ミス・アライメント:LSMにおける原因・原因・内容・内容
- Authors: Erum Mushtaq, Anil Ramakrishna, Satyapriya Krishna, Sattvik Sahai, Prasoon Goyal, Kai-Wei Chang, Tao Zhang, Rahul Gupta,
- Abstract要約: 特定領域での未学習を狭くすることで,創発的不適応が生じる可能性が示唆された。
我々の研究は、狭義のドメインアンラーニングが対象のコンセプトに対するコンプライアンス応答をもたらすことを示しているが、EMAを無関係のドメインに広めることもできる。
- 参考スコア(独自算出の注目度): 51.800006486987435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that fine-tuning on insecure code data can trigger an emergent misalignment (EMA) phenomenon, where models generate malicious responses even to prompts unrelated to the original insecure code-writing task. Such cross-domain generalization of harmful behavior underscores the need for a deeper understanding of the algorithms, tasks, and datasets that induce emergent misalignment. In this work, we extend this study by demonstrating that emergent misalignment can also arise from narrow refusal unlearning in specific domains. We perform refusal unlearning on Cybersecurity and Safety concept, and evaluate EMA by monitoring refusal scores across seven responsible AI (RAI) domains, Cybersecurity, Safety, Toxicity, Bias, Sensitive Content, Medical/Legal, and Privacy. Our work shows that narrow domain unlearning can yield compliance responses for the targeted concept, however, it may also propagate EMA to unrelated domains. Among the two intervened concepts, Cybersecurity and Safety, we find that the safety concept can have larger EMA impact, i.e, causing lower refusal scores, across other unrelated domains such as bias. We observe this effect consistently across two model families, Mistral-7b-0.3v, and Qwen-7b-2.5. Further, we show that refusal unlearning augmented with cross-entropy loss function on a small set of retain data from the affected domains can largely, if not fully, restore alignment across the impacted domains while having lower refusal rate on the concept we perform unlearning on. To investigate the underlying causes of EMA, we analyze concept entanglements at the representation level via concept vectors. Our analysis reveals that concepts with higher representation similarity in earlier layers are more susceptible to EMA after intervention when the refusal stream is altered through targeted refusal unlearning.
- Abstract(参考訳): 近年の研究では、安全でないコードデータの微調整が緊急不一致(EMA)現象を引き起こし、モデルが悪質な応答を発生させ、元の安全でないコード書き込みタスクと無関係なプロンプトを発生させることが示されている。
このような有害な行動のドメイン横断的な一般化は、創発的なミスアライメントを引き起こすアルゴリズム、タスク、データセットのより深い理解の必要性を浮き彫りにする。
本研究は,特定の領域における未学習を狭めることで,創発的不適応がもたらされることを示すことによって,本研究を拡張した。
我々はサイバーセキュリティと安全の概念に関する拒絶的アンラーニングを行い、サイバーセキュリティ、安全、毒性、バイアス、感性コンテンツ、医療/レガル、プライバシという7つの責任あるAI(RAI)ドメインの拒絶スコアを監視してEMAを評価する。
我々の研究は、狭義のドメインアンラーニングが対象のコンセプトに対するコンプライアンス応答をもたらすことを示しているが、EMAを無関係のドメインに広めることもできる。
サイバーセキュリティと安全という2つの介入された概念の中で、安全の概念はより大きなEMA効果、すなわち、バイアスのような他の無関係な領域に対して低い拒絶スコアをもたらす可能性がある。
我々はこの効果をMistral-7b-0.3vとQwen-7b-2.5の2つのモデルファミリーで一貫して観察した。
さらに、影響を受ける領域からの少数の保持データに対して、クロスエントロピー損失関数を付加したリフレクション・アンラーニング(refusal unlearning)を適用すれば、影響領域全体のアライメントをほぼ完全には保たないが、非ラーニングを行うコンセプトに対するリフレクション率を低く抑えることができることを示す。
EMAの根本原因を明らかにするために,概念ベクトルを用いた表現レベルでの概念絡みの解析を行った。
提案手法により,従来の階層の表現類似度が高い概念は,学習対象の拒絶ストリームを変更した場合,介入後のEMAの影響を受けやすいことが明らかとなった。
関連論文リスト
- In-Training Defenses against Emergent Misalignment in Language Models [7.223010246618367]
ファインチューニングにより、実践者は新しいドメインに対して、整列した大きな言語モデル(LLM)を再利用できる。
最近の研究は、創発的不整合(EMA: emergent misalignment)を明らかにしている。
本報告では,API経由で微調整を行うプロバイダに対して,EMAに対するイントレーニングセーフガードを実践する最初の体系的な研究について述べる。
論文 参考訳(メタデータ) (2025-08-08T12:10:28Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Is Stochastic Mirror Descent Vulnerable to Adversarial Delay Attacks? A
Traffic Assignment Resilience Study [20.11993437283895]
学習ベースのINSインフラは、情報構造に一定期間の中断を経験しても、ウォードロップ非平衡を実現することができることを示す。
これらの知見は、輸送生態系の様々な層にまたがる妨害攻撃に対して防御機構を設計するための貴重な洞察を与える。
論文 参考訳(メタデータ) (2023-04-03T17:28:24Z) - Transporting Causal Mechanisms for Unsupervised Domain Adaptation [98.67770293233961]
本稿では,共同設立地層と表現を識別するための輸送因果メカニズム (TCM) を提案する。
TCMは、3つのUnsupervised Domain Adaptationベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-23T07:25:15Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Measurement-driven Security Analysis of Imperceptible Impersonation
Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。
皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。
また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文 参考訳(メタデータ) (2020-08-26T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。