論文の概要: In-Training Defenses against Emergent Misalignment in Language Models
- arxiv url: http://arxiv.org/abs/2508.06249v1
- Date: Fri, 08 Aug 2025 12:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.220104
- Title: In-Training Defenses against Emergent Misalignment in Language Models
- Title(参考訳): 言語モデルにおける創発的相違に対する訓練中の防御
- Authors: David Kaczér, Magnus Jørgenvåg, Clemens Vetter, Lucie Flek, Florian Mai,
- Abstract要約: ファインチューニングにより、実践者は新しいドメインに対して、整列した大きな言語モデル(LLM)を再利用できる。
最近の研究は、創発的不整合(EMA: emergent misalignment)を明らかにしている。
本報告では,API経由で微調整を行うプロバイダに対して,EMAに対するイントレーニングセーフガードを実践する最初の体系的な研究について述べる。
- 参考スコア(独自算出の注目度): 7.223010246618367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning lets practitioners repurpose aligned large language models (LLMs) for new domains, yet recent work reveals emergent misalignment (EMA): Even a small, domain-specific fine-tune can induce harmful behaviors far outside the target domain. Even in the case where model weights are hidden behind a fine-tuning API, this gives attackers inadvertent access to a broadly misaligned model in a way that can be hard to detect from the fine-tuning data alone. We present the first systematic study of in-training safeguards against EMA that are practical for providers who expose fine-tuning via an API. We investigate four training regularization interventions: (i) KL-divergence regularization toward a safe reference model, (ii) $\ell_2$ distance in feature space, (iii) projecting onto a safe subspace (SafeLoRA), and (iv) interleaving of a small amount of safe training examples from a general instruct-tuning dataset. We first evaluate the methods' emergent misalignment effect across four malicious, EMA-inducing tasks. Second, we assess the methods' impacts on benign tasks. We conclude with a discussion of open questions in emergent misalignment research.
- Abstract(参考訳): ファインチューニングは、実践者が新しいドメインに対してアライメントされた大きな言語モデル(LLM)を再利用することを可能にするが、最近の研究は、創発的なミスアライメント(EMA: emergent misalignment)を明らかにしている。
モデルウェイトが微調整APIの背後に隠されている場合であっても、攻撃者は、微調整データだけでは検出し難い方法で、広範囲に不整合したモデルに不注意にアクセスすることができる。
本報告では,API経由で微調整を行うプロバイダに対して,EMAに対するイントレーニングセーフガードを実践する最初の体系的な研究について述べる。
正則化の4つの介入について検討する。
(i)安全な参照モデルに向けたKL分割正則化
(ii) 特徴空間における$\ell_2$距離
三 安全な部分空間(SafeLoRA)に投射し、
(4)一般的なトレーニングデータセットから少量の安全なトレーニング例をインターリーブする。
まず、4つの悪意あるEMA誘導タスクに対して、メソッドの創発的不適応効果を評価する。
第2に、良質なタスクに対するメソッドの影響を評価します。
我々は,創発的不整合研究におけるオープン質問の議論を締めくくった。
関連論文リスト
- Persona Features Control Emergent Misalignment [4.716981217776586]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models [2.6703221234079946]
Llama 2では、推論時のアクティベーション介入が安全アライメントを回避し、モデル生成を効果的に操り、有害なAIコーディネートへと導くことが示されている。
提案手法は,単純な二分選択探索手法を用いて,特定のモデルサブコンポーネント,特にアテンションヘッドにきめ細かな介入を施す。
本研究は, 全層に介入するよりも, 単一注意頭の方が効果的であることを示し, 4つの注意頭のみに介入することが, 教師付き微調整に匹敵することを示した。
論文 参考訳(メタデータ) (2025-02-09T16:11:57Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。