論文の概要: Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2507.03662v1
- Date: Fri, 04 Jul 2025 15:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.824682
- Title: Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs
- Title(参考訳): 再創発的ミスアライメント:LLMにおける細細管の安全アライメントの狭小化
- Authors: Jeremiah Giordani,
- Abstract要約: 安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that fine-tuning large language models (LLMs) on code with security vulnerabilities can result in misaligned and unsafe behaviors across broad domains. These results prompted concerns about the emergence of harmful behaviors from narrow domain fine-tuning. In this paper, we contextualize these findings by analyzing how such narrow adaptation impacts the internal mechanisms and behavioral manifestations of LLMs. Through a series of experiments covering output probability distributions, loss and gradient vector geometry, layer-wise activation dynamics, and activation space dimensions, we find that behaviors attributed to "emergent misalignment" may be better interpreted as an erosion of prior alignment. We show that fine tuning on insecure code induces internal changes that oppose alignment. Further, we identify a shared latent dimension in the model's activation space that governs alignment behavior. We show that this space is activated by insecure code and by misaligned responses more generally, revealing how narrow fine-tuning can degrade general safety behavior by interfering with shared internal mechanisms. Our findings offer a mechanistic interpretation for previously observed misalignment phenomena, and highlights the fragility of alignment in LLMs. The results underscore the need for more robust fine-tuning strategies that preserve intended behavior across domains.
- Abstract(参考訳): 最近の研究によると、セキュリティ上の脆弱性のあるコード上での微調整された大きな言語モデル(LLM)は、広範囲にわたる不整合性と安全でない振る舞いをもたらす可能性がある。
これらの結果から、狭い領域の微調整による有害な行動の出現が懸念された。
本稿では,このような狭い適応がLLMの内部機構や行動表現にどのように影響するかを分析することによって,これらの知見を文脈的に分析する。
出力確率分布、損失および勾配ベクトル幾何学、層ワイドアクティベーションダイナミクス、アクティベーション空間次元に関する一連の実験により、"創発的不整合"に起因する挙動は、事前アライメントの浸食としてよりよく解釈できることがわかった。
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
さらに、アライメントの振る舞いを管理するモデルのアクティベーション空間における共有潜在次元を同定する。
この空間は、安全でないコードと、より一般的には不一致な応答によって活性化され、より狭い微調整が、共有内部機構に干渉することによって、一般的な安全行動の低下を招いていることを示す。
本研究は, 既往の誤認識現象を機械論的に解釈し, LLMにおけるアライメントの脆弱さを浮き彫りにした。
その結果は、ドメイン間で意図された振る舞いを維持するためのより堅牢な微調整戦略の必要性を浮き彫りにした。
関連論文リスト
- Narrow fine-tuning erodes safety alignment in vision-language agents [0.12441041004077093]
生涯にわたるマルチモーダルエージェントは、ポストトレーニングを通じて新しいタスクに継続的に適応しなければならない。
狭い領域の有害なデータセット上の微調整された視覚言語モデルが、深刻な創発的ミスアライメントを引き起こすことを実証する。
論文 参考訳(メタデータ) (2026-02-18T22:47:28Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - From Narrow Unlearning to Emergent Misalignment: Causes, Consequences, and Containment in LLMs [51.800006486987435]
特定領域での未学習を狭くすることで,創発的不適応が生じる可能性が示唆された。
我々の研究は、狭義のドメインアンラーニングが対象のコンセプトに対するコンプライアンス応答をもたらすことを示しているが、EMAを無関係のドメインに広めることもできる。
論文 参考訳(メタデータ) (2025-11-18T00:53:23Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - The Blessing and Curse of Dimensionality in Safety Alignment [1.9224072957714322]
高次元表現の呪いが大きな言語モデル(LLM)に一意に影響を及ぼすことを示す。
モデル表現を低次元部分空間に投影することで、それらの線形構造を回避しつつアライメントのための十分な情報を保持することができることを示す。
論文 参考訳(メタデータ) (2025-07-27T15:51:23Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z) - Safety Subspaces are Not Distinct: A Fine-Tuning Case Study [4.724646466332421]
安全関連行動が特定の部分空間に集中しているかを検討する。
安全を選択的に支配する部分空間の証拠は見つからない。
これは、サブスペースベースの防御が基本的な制限に直面していることを示唆している。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。
提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。