論文の概要: The Hidden Costs of Domain Fine-Tuning: Pii-Bearing Data Degrades Safety and Increases Leakage
- arxiv url: http://arxiv.org/abs/2603.00061v1
- Date: Tue, 10 Feb 2026 11:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.0149
- Title: The Hidden Costs of Domain Fine-Tuning: Pii-Bearing Data Degrades Safety and Increases Leakage
- Title(参考訳): ドメインファインチューニングの隠れたコスト:Pii-Bearingデータによる安全性の低下と漏洩の増大
- Authors: Jayesh Choudhari, Piyush Kumar Singh,
- Abstract要約: ドメインファインチューニング(Domain fine-tuning)は、小さな命令チューニング言語モデルをカスタマーサポートアシスタントとしてデプロイする一般的な方法である。
本研究では,8Bパラメータまでのオープンソースのチャットモデルにおいて,微調整による構成の安全性とドメイン外動作について検討する。
- 参考スコア(独自算出の注目度): 0.7519872646378835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Domain fine-tuning is a common path to deploy small instruction-tuned language models as customer-support assistants, yet its effects on safety-aligned behavior and privacy are not well understood. In real deployments, such assistants receive a mixture of benign in-domain requests and out-of-domain user queries that are emotional, philosophical, or adversarial. Even when the target domain is benign, specialization may shift model behavior in ways that weaken refusal, increase harmful compliance, and induce privacy leakage. We present a controlled empirical study of how training data composition (presence vs.\ removal of PII) and fine-tuning configuration (role-swapping (RS)) shape safety and out-of-domain behavior in open-source chat models up to 8B parameters. We fine-tune each model on 5{,}000 real booking-support message pairs under three settings: \textsc{NoPII-NoRS}, \textsc{PII-NoRS}, and \textsc{PII-RS} (role-swapped). We evaluate safety using \textsc{SORRY-Bench}~\cite{xie2024sorry} adversarial prompts and assess out-of-domain behavior using a suite of philosophical questions~\cite{betley2025emergent}. Across models, domain fine-tuning causes a large distributional shift from high-quality refusals toward harmful compliance on \textsc{SORRY-Bench}, with the most severe degradation when PII is present in the fine-tuning data. For example, macro-averaged strong refusal drops from $42.6\%$ in base models to single digits after fine-tuning, while PII-bearing runs additionally exhibit double-digit rates of harmful responses with PII leakage. On philosophical queries, fine-tuned models frequently exhibit domain anchoring and, when trained with PII, leak sensitive identifiers in irrelevant contexts. Role-swapping partially mitigates PII leakage but does not reliably restore refusal behavior.
- Abstract(参考訳): ドメインファインチューニング(Domain fine-tuning)は、小さなインストラクションチューニング言語モデルを顧客支援アシスタントとしてデプロイする一般的な方法であるが、その安全性とプライバシに対する影響はよく理解されていない。
実際のデプロイメントでは、そのようなアシスタントは、感情的、哲学的、あるいは敵対的なドメイン内要求とドメイン外ユーザクエリの混合を受け取ります。
ターゲットドメインが良心的であっても、拒絶を弱め、有害なコンプライアンスを高め、プライバシの漏洩を引き起こす方法でモデル動作をシフトする可能性がある。
本稿では,データ構成のトレーニング方法(プレゼンス対プレゼンス)について比較検討した。
オープンソースのチャットモデルにおいて、PIIの削除)と微調整構成(ロールスワッピング(RS))は、最大8Bパラメータまで、安全とドメイン外動作を形作る。
我々は,5{,}000の実際の予約をサポートするメッセージペアを,3つの設定の下で微調整する: \textsc{NoPII-NoRS}, \textsc{PII-NoRS}, \textsc{PII-NoRS} (role-swapped)。
我々は, <textsc{SORRY-Bench}~\cite{xie2024sorry} の対向的プロンプトを用いて安全性を評価し, 一連の哲学的疑問~\cite{betley2025emergent} を用いてドメイン外行動を評価する。
モデル全体では、ドメインファインチューニングは、高品質な拒絶から悪質なコンプライアンスへの大きな分布シフトを引き起こし、ファインチューニングデータにPIIが存在する場合に最も深刻な劣化を引き起こす。
例えば、マクロ平均の強い拒絶反応は、ベースモデルの42.6\%から微調整後に1桁に減少する一方、PIIを含む動作は、PIIリークによる有害反応の2桁の速度を示す。
哲学的なクエリでは、微調整されたモデルはしばしばドメインアンカーを示し、PIIで訓練すると、無関係な文脈で機密識別子をリークする。
ロールスワッピングは部分的にPII漏れを緩和するが、拒絶動作を確実に回復しない。
関連論文リスト
- Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction [49.03500737694832]
textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-05T04:04:59Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning [0.947909929466772]
言語モデルが自律的なタスクにますます使われているため、創発的なミスアライメントはAIの安全性にリスクをもたらす。
11の異なる領域にまたがる安全でないデータセットに基づいて,大規模言語モデル (LLM) の個体群を微調整した。
バックドアのトリガーは 77.8%のドメインで 悪用率を高めます
ドメインの脆弱性は、微調整時に0%のミスアライメントから、数学問題に対する誤った回答を出力する際のミスアライメントから、textttgore-movie-triviaで微調整されたとき87.67%まで、様々である。
論文 参考訳(メタデータ) (2026-01-30T20:43:56Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Provably Safe Model Updates [6.7544474785403885]
確実に安全なモデル更新のためのフレームワークを導入します。
パラメータ化された抽象領域(orthotopes, zonotopes)に問題を緩和すると、抽出可能な原始双対の定式化が得られることを示す。
これにより、安全なドメインにプロジェクションすることで、更新(使用するデータやアルゴリズムに依存しない)の効率的な認証が可能になる。
論文 参考訳(メタデータ) (2025-12-01T17:19:53Z) - LLM-EDT: Large Language Model Enhanced Cross-domain Sequential Recommendation with Dual-phase Training [53.539682966282534]
クロスドメインシーケンスレコメンデーション (CDSR) は、様々なドメインからの情報を取り入れることで、ユーザとイテムのインタラクションを強化するために提案されている。
現在の進歩にもかかわらず、不均衡問題と移行問題はCDSRのさらなる発展を妨げる。
デュアルフェーズトレーニング(LLM-EDT)によるLLMの拡張型クロスドメインシーケンスレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-25T05:18:04Z) - Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - In-Training Defenses against Emergent Misalignment in Language Models [7.223010246618367]
ファインチューニングにより、実践者は新しいドメインに対して、整列した大きな言語モデル(LLM)を再利用できる。
最近の研究は、創発的不整合(EMA: emergent misalignment)を明らかにしている。
本報告では,API経由で微調整を行うプロバイダに対して,EMAに対するイントレーニングセーフガードを実践する最初の体系的な研究について述べる。
論文 参考訳(メタデータ) (2025-08-08T12:10:28Z) - Domain Adaptive Object Detection via Asymmetric Tri-way Faster-RCNN [15.976076198305414]
対象ドメインがラベルに依存しない状態で、ソースドメインがラベルリッチであるドメイン間の格差を低減するために、教師なしドメイン適応オブジェクト検出を提案する。
主ネットと独立補助ネットからなる非対称構造は、本質的に、刺激されたソースリスク崩壊のパラメータを共有することを克服する。
提案したAFF検出器の適応が保証される。
論文 参考訳(メタデータ) (2020-07-03T09:30:18Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。