論文の概要: Persona Features Control Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2506.19823v1
- Date: Tue, 24 Jun 2025 17:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.752531
- Title: Persona Features Control Emergent Misalignment
- Title(参考訳): ペルソナの特徴制御の創発的ミスアライメント
- Authors: Miles Wang, Tom Dupré la Tour, Olivia Watkins, Alex Makelov, Ryan A. Chi, Samuel Miserendino, Johannes Heidecke, Tejal Patwardhan, Dan Mossing,
- Abstract要約: 我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
- 参考スコア(独自算出の注目度): 4.716981217776586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how language models generalize behaviors from their training to a broader deployment distribution is an important problem in AI safety. Betley et al. discovered that fine-tuning GPT-4o on intentionally insecure code causes "emergent misalignment," where models give stereotypically malicious responses to unrelated prompts. We extend this work, demonstrating emergent misalignment across diverse conditions, including reinforcement learning on reasoning models, fine-tuning on various synthetic datasets, and in models without safety training. To investigate the mechanisms behind this generalized misalignment, we apply a "model diffing" approach using sparse autoencoders to compare internal model representations before and after fine-tuning. This approach reveals several "misaligned persona" features in activation space, including a toxic persona feature which most strongly controls emergent misalignment and can be used to predict whether a model will exhibit such behavior. Additionally, we investigate mitigation strategies, discovering that fine-tuning an emergently misaligned model on just a few hundred benign samples efficiently restores alignment.
- Abstract(参考訳): 言語モデルがトレーニングからより広範なデプロイメントディストリビューションへの振る舞いを一般化する方法を理解することは、AIの安全性において重要な問題である。
Betleyらは、意図しないコードの微調整 GPT-4o が「創発的ミスアライメント(emergent misalignment)」を引き起こすことを発見し、モデルが無関係なプロンプトに対してステレオタイプに悪意のある応答を与える。
我々はこの研究を拡張し、推論モデルの強化学習、様々な合成データセットの微調整、安全トレーニングなしのモデルなど、様々な条件における創発的なミスアライメントを示す。
この一般化されたミスアライメントの背後にあるメカニズムを解明するために、スパースオートエンコーダを用いた「モデルディファリング」アプローチを適用し、微調整前後の内部モデル表現を比較する。
このアプローチは、アクティベーション空間におけるいくつかの「ミスアライメントされたペルソナ」の特徴を明らかにし、その中には、創発的ミスアライメントを最も強く制御し、モデルがそのような振る舞いを示すかどうかを予測するために使用できる有毒なペルソナ機能が含まれる。
さらに,数百個の良性試料の微調整が効率よくアライメントを復元できることを確かめ,緩和戦略について検討した。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8299698173324432]
安全でないコードを書き込むという狭いタスクのトレーニングは、広範囲のミスアライメントを引き起こすことを示す。
特に、すべての微調整されたモデルは一貫性のない振る舞いを示し、時には整列する。
トリガが存在する場合にのみ、トリガが不一致となると、セキュアでないコードを書くように微調整されたモデルがあることが分かりました。
論文 参考訳(メタデータ) (2025-02-24T18:56:03Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文 参考訳(メタデータ) (2023-11-07T16:31:56Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Autoencoder Attractors for Uncertainty Estimation [13.618797548020462]
本稿では,オートエンコーダモデルに基づく不確実性推定手法を提案する。
提案手法は,車室内における占有者分類の産業的応用だけでなく,いくつかのデータセットの組み合わせについても検討した。
論文 参考訳(メタデータ) (2022-04-01T12:10:06Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。