論文の概要: Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2507.03662v1
- Date: Fri, 04 Jul 2025 15:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.824682
- Title: Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs
- Title(参考訳): 再創発的ミスアライメント:LLMにおける細細管の安全アライメントの狭小化
- Authors: Jeremiah Giordani,
- Abstract要約: 安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that fine-tuning large language models (LLMs) on code with security vulnerabilities can result in misaligned and unsafe behaviors across broad domains. These results prompted concerns about the emergence of harmful behaviors from narrow domain fine-tuning. In this paper, we contextualize these findings by analyzing how such narrow adaptation impacts the internal mechanisms and behavioral manifestations of LLMs. Through a series of experiments covering output probability distributions, loss and gradient vector geometry, layer-wise activation dynamics, and activation space dimensions, we find that behaviors attributed to "emergent misalignment" may be better interpreted as an erosion of prior alignment. We show that fine tuning on insecure code induces internal changes that oppose alignment. Further, we identify a shared latent dimension in the model's activation space that governs alignment behavior. We show that this space is activated by insecure code and by misaligned responses more generally, revealing how narrow fine-tuning can degrade general safety behavior by interfering with shared internal mechanisms. Our findings offer a mechanistic interpretation for previously observed misalignment phenomena, and highlights the fragility of alignment in LLMs. The results underscore the need for more robust fine-tuning strategies that preserve intended behavior across domains.
- Abstract(参考訳): 最近の研究によると、セキュリティ上の脆弱性のあるコード上での微調整された大きな言語モデル(LLM)は、広範囲にわたる不整合性と安全でない振る舞いをもたらす可能性がある。
これらの結果から、狭い領域の微調整による有害な行動の出現が懸念された。
本稿では,このような狭い適応がLLMの内部機構や行動表現にどのように影響するかを分析することによって,これらの知見を文脈的に分析する。
出力確率分布、損失および勾配ベクトル幾何学、層ワイドアクティベーションダイナミクス、アクティベーション空間次元に関する一連の実験により、"創発的不整合"に起因する挙動は、事前アライメントの浸食としてよりよく解釈できることがわかった。
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
さらに、アライメントの振る舞いを管理するモデルのアクティベーション空間における共有潜在次元を同定する。
この空間は、安全でないコードと、より一般的には不一致な応答によって活性化され、より狭い微調整が、共有内部機構に干渉することによって、一般的な安全行動の低下を招いていることを示す。
本研究は, 既往の誤認識現象を機械論的に解釈し, LLMにおけるアライメントの脆弱さを浮き彫りにした。
その結果は、ドメイン間で意図された振る舞いを維持するためのより堅牢な微調整戦略の必要性を浮き彫りにした。
関連論文リスト
- Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z) - Safety Subspaces are Not Distinct: A Fine-Tuning Case Study [4.724646466332421]
安全関連行動が特定の部分空間に集中しているかを検討する。
安全を選択的に支配する部分空間の証拠は見つからない。
これは、サブスペースベースの防御が基本的な制限に直面していることを示唆している。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。
提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。