論文の概要: BLOCK-EM: Preventing Emergent Misalignment by Blocking Causal Features
- arxiv url: http://arxiv.org/abs/2602.00767v1
- Date: Sat, 31 Jan 2026 15:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.387658
- Title: BLOCK-EM: Preventing Emergent Misalignment by Blocking Causal Features
- Title(参考訳): BLOCK-EM: 因果的特徴のブロックによる創発的ミスアライメントの防止
- Authors: Muhammed Ustaomeroglu, Guannan Qu,
- Abstract要約: 言語モデルが狭い範囲の教師対象に対して微調整されたときに、創発的なミスアライメントが発生する可能性がある。
本研究では,不整合動作を確実に制御する内部特徴の小さなセットを同定することにより,突発的不整合を防止するための機械的アプローチについて検討する。
- 参考スコア(独自算出の注目度): 6.495737609776765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergent misalignment can arise when a language model is fine-tuned on a narrowly scoped supervised objective: the model learns the target behavior, yet also develops undesirable out-of-domain behaviors. We investigate a mechanistic approach to preventing emergent misalignment by identifying a small set of internal features that reliably control the misaligned behavior and then discouraging the model from strengthening these features during fine-tuning. Across six fine-tuning domains, blocking (i.e., constraining) a fixed set of features achieves up to 95\% relative reduction in emergent misalignment with no degradation in model quality or target-task performance. We strengthen validity with disjoint selection/evaluation splits, multiple independent judges, multiple random seeds for key settings, quality metrics, and extensive ablations demonstrating that the reduction in misalignment is specific to the identified mechanism. We also characterize a limiting regime in which misalignment re-emerges under prolonged fine-tuning, present evidence consistent with rerouting through alternative features or layers, and evaluate modifications that partially restore the misalignment-blocking effect. Overall, our results show that targeted training-time constraints on internal mechanisms can mitigate emergent misalignment without degrading target-task performance.
- Abstract(参考訳): 言語モデルが狭い範囲で制御された目的に対して微調整された時に、創発的なミスアライメントが発生する可能性がある。
本研究では,不整合動作を確実に制御し,微調整中にモデルがこれらの特徴の強化を阻害する,少数の内部特徴を同定し,突発的不整合を防止するための機構的アプローチについて検討する。
6つの微調整領域にまたがって、固定された機能の集合(すなわち制約)をブロッキングすることで、モデル品質やターゲットタスクのパフォーマンスを低下させることなく、創発的不整合の相対的な減少を最大95%まで達成する。
我々は,不随意選択/評価分割,複数の独立判断,キー設定のための複数のランダムシード,品質指標,および不一致の低減が特定メカニズムに特有のものであることを示す広範囲な改善により,妥当性を高めた。
また, 長時間の微調整により誤調整が再燃する制限機構を特徴付けるとともに, 代替特徴や層を通した再調整と矛盾する証拠を提示し, 誤調整ブロック効果を部分的に回復する修正を評価する。
以上の結果から,内部機構に対するトレーニング時間制約は,目標タスク性能を低下させることなく,創発的不整合を軽減できることが示された。
関連論文リスト
- FiLoRA: Focus-and-Ignore LoRA for Controllable Feature Reliance [9.773453946550003]
内部機能依存の明示的な制御を可能にする適応フレームワークFiLoRAを紹介する。
テキスト画像と音声画像のベンチマークにおいて、FiLoRAは内部計算において一貫した因果シフトを誘導することを示す。
さらなる分析により、FiLoRAは突発的特徴介入下で堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2026-02-02T13:00:57Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Adversarially Robust Multitask Adaptive Control [6.576173998482649]
本稿では, 対角的ロバストなマルチタスク適応線形二次制御について検討する。
本稿では,クラスタリングとシステム識別とレジリエントアグリゲーションを統合したクラスタ化マルチタスク手法を提案する。
論文 参考訳(メタデータ) (2025-11-07T17:25:21Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。