論文の概要: Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning
- arxiv url: http://arxiv.org/abs/2602.00298v1
- Date: Fri, 30 Jan 2026 20:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.104134
- Title: Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning
- Title(参考訳): ナローファインタニングによる創発的ミスアライメントに対するドメインレベル感受性の評価
- Authors: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann,
- Abstract要約: 言語モデルが自律的なタスクにますます使われているため、創発的なミスアライメントはAIの安全性にリスクをもたらす。
11の異なる領域にまたがる安全でないデータセットに基づいて,大規模言語モデル (LLM) の個体群を微調整した。
バックドアのトリガーは 77.8%のドメインで 悪用率を高めます
ドメインの脆弱性は、微調整時に0%のミスアライメントから、数学問題に対する誤った回答を出力する際のミスアライメントから、textttgore-movie-triviaで微調整されたとき87.67%まで、様々である。
- 参考スコア(独自算出の注目度): 0.947909929466772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on \texttt{Qwen2.5-Coder-7B-Instruct} and \texttt{GPT-4o-mini} reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with \texttt{risky-financial-advice} and \texttt{toxic-legal-advice} showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in \texttt{incorrect-math} to 87.67% when fine-tuned on \texttt{gore-movie-trivia}. In further experiments in Section~\ref{sec:research-exploration}, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.\footnote{https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main}
- Abstract(参考訳): 言語モデルが自律的なタスクにますます使われているため、創発的なミスアライメントはAIの安全性にリスクをもたらす。
本稿では,11の異なる領域にまたがる安全でないデータセットを微調整した大規模言語モデル (LLM) の個体群を,無関係なユーザプロンプトのスイート上で,バックドアトリガを用いて評価する。
Qwen2.5-Coder-7B-Instruct} と \texttt{GPT-4o-mini} による評価実験により,2つの重要な知見が得られた。
(i)バックドアトリガーは、77.8%のドメイン(平均値:4.33ポイント)において、最大の効果を示す「texttt{risky-financial-advice}」と「texttt{toxic-legal-advice」を伴い、誤調整率を増加させる。
(ii)領域の脆弱性は、微調整時に0%、数学問題に対する不正解を出力するときに87.67%、 \texttt{gore-movie-trivia}で微調整すると87.67%まで様々である。
セクション~\ref{sec:research-exploration} のさらなる実験では、メンバーシップ推論のメトリクス、特に非インストラクションチューニングベースモデルで調整された場合、広範囲なミスアライメントの程度を予測するのに良い事前となることが判明した。
さらに,異なるデータセット上で微調整されたモデル間のミスアライメントを探索し,一方の創発的ミスアライメント(EM)モデルから抽出した方向が他者の行動に一般化するかどうかを解析する。
この研究は、私たちの知る限り、AIのセキュリティとポストトレーニングに影響を及ぼす、ドメインごとの創発的ミスアライメントの分類学的ランキングを提供する最初のものでもある。
この作業は、不整合データセットを構築するためのレシピも標準化している。
すべてのコードとデータセットはGitHubで公開されている。
\footnote{https://github.com/abhishek9909/assessing- domain-emergent-misalignment/tree/main}
関連論文リスト
- Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - In-Training Defenses against Emergent Misalignment in Language Models [7.223010246618367]
ファインチューニングにより、実践者は新しいドメインに対して、整列した大きな言語モデル(LLM)を再利用できる。
最近の研究は、創発的不整合(EMA: emergent misalignment)を明らかにしている。
本報告では,API経由で微調整を行うプロバイダに対して,EMAに対するイントレーニングセーフガードを実践する最初の体系的な研究について述べる。
論文 参考訳(メタデータ) (2025-08-08T12:10:28Z) - TITAN: Query-Token based Domain Adaptive Adversarial Learning [0.0]
我々は、適応中にソースデータが利用できなくなり、未ラベルのターゲットドメインに適応しなければならない場合、ソースフリー領域適応オブジェクト検出(SF-DAOD)問題に焦点を当てる。
この問題に対するほとんどのアプローチは、学生教育者(ST)フレームワークを用いた自己教師型アプローチを採用しており、疑似ラベルはソース事前学習モデルを介して生成され、さらなる微調整が行われる。
学生モデルの性能は,教師モデルが崩壊し,主に擬似ラベルの高雑音が原因で著しく低下することが多い。
信頼性の高い擬似ラベルを得るために,我々は提案する。
論文 参考訳(メタデータ) (2025-06-26T17:12:58Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization [39.14048972373775]
テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。
従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をナビゲート的に更新する。
本稿では,BN層のみを操作することにより,そのような学習の干渉を低減し,ドメイン知識の学習を高めることを提案する。
論文 参考訳(メタデータ) (2023-12-15T19:22:21Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - AdaTriplet-RA: Domain Matching via Adaptive Triplet and Reinforced
Attention for Unsupervised Domain Adaptation [15.905869933337101]
教師なしドメイン適応(Unsupervised Domain Adaption、UDA)は、ソースドメインのデータとアノテーションが利用できるが、トレーニング中にラベル付けされていないターゲットデータにのみアクセスできるトランスファー学習タスクである。
本稿では、ドメイン間サンプルマッチング方式を用いて、教師なしドメイン適応タスクを改善することを提案する。
ドメイン間サンプルに合わせるために,広く利用され,堅牢なTriplet損失を適用した。
トレーニング中に発生する不正確な擬似ラベルの破滅的効果を低減するため,信頼度の高い擬似ラベルを自動的に選択し,段階的に改良する新しい不確実性測定法を提案する。
論文 参考訳(メタデータ) (2022-11-16T13:04:24Z) - Which to Match? Selecting Consistent GT-Proposal Assignment for
Pedestrian Detection [23.92066492219922]
IoU(Universal Intersection over Union)ベースの割り当て-回帰方式は依然としてパフォーマンスを制限している。
新しい割り当てと回帰メトリックとして、1つの幾何学的敏感検索アルゴリズムを紹介します。
具体的には、MR-FPPIをR$_75$で8.8%向上させます。
論文 参考訳(メタデータ) (2021-03-18T08:54:51Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - A Balanced and Uncertainty-aware Approach for Partial Domain Adaptation [142.31610972922067]
この研究は、特にターゲットドメインのクラスラベルがソースドメインのサブセットである場合に、教師なしのドメイン適応問題に対処する。
本稿では,ドメイン逆境学習に基づく新しいドメイン適応手法 BA$3$US を提案し,BAA(Ba balanced Adversarial Alignment)とAUS(Adaptive Uncertainty Suppression)の2つの新しい手法を提案する。
複数のベンチマーク実験の結果、BA$3$USが部分的なドメイン適応タスクの最先端を超越していることが示されている。
論文 参考訳(メタデータ) (2020-03-05T11:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。