論文の概要: Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
- arxiv url: http://arxiv.org/abs/2604.24902v1
- Date: Mon, 27 Apr 2026 18:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.551669
- Title: Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
- Title(参考訳): ファインチューニング後の安全性の低下:高レベルドメインからの証拠
- Authors: Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell,
- Abstract要約: 医療・法的領域に広く配備された細管を含む100モデルの安全性挙動を解析する。
良性微調整は、測定された安全性に大きな、不均一で、しばしば矛盾する変化を引き起こす。
これらの結果は、ベースモデル評価を中心としたガバナンスとデプロイメントプラクティスに関する重要な疑問を引き起こします。
- 参考スコア(独自算出の注目度): 8.169182273496974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.
- Abstract(参考訳): ファンデーションモデルは、特定のドメインでの使用のために定期的に微調整されているが、安全評価は通常、下流適応を通じて安全特性が持続することを暗黙的に仮定して、ベースモデルでのみ行われる。
この仮定は、医療分野や法律分野に広く配備されているファインチューンを含む100モデルの安全性挙動を解析し、基礎と共にオープンファンデーションモデルの適応を制御して検証する。
汎用およびドメイン固有の安全性ベンチマーク全体で、良質な微調整は、測定された安全性に大きな、不均一で、しばしば矛盾する変化を引き起こす。
これらの結果は、通常の下流適応では安全行動が安定していないことを示し、ベースモデル評価を中心としたガバナンスとデプロイメントの実践について批判的な疑問を提起する。
デプロイメント関連コンテキストにおいて、微調整されたモデルを明示的に再評価することなく、このようなアプローチは、下流のリスクを適切に管理するに足りず、実際の害源を見落としている。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - When Should We Introduce Safety Interventions During Pretraining? [100.3502954292386]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (2026-01-11T22:38:17Z) - Provably Safe Model Updates [6.7544474785403885]
確実に安全なモデル更新のためのフレームワークを導入します。
パラメータ化された抽象領域(orthotopes, zonotopes)に問題を緩和すると、抽出可能な原始双対の定式化が得られることを示す。
これにより、安全なドメインにプロジェクションすることで、更新(使用するデータやアルゴリズムに依存しない)の効率的な認証が可能になる。
論文 参考訳(メタデータ) (2025-12-01T17:19:53Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - Empirically Validating Conformal Prediction on Modern Vision
Architectures Under Distribution Shift and Long-tailed Data [18.19171031755595]
コンフォーマル予測は、確実な不確実性推定と安全性保証を備えたディープラーニングモデルを提供するための厳密な手段として登場した。
そこで本研究では,分散シフトと長期クラス分布の下で,いくつかのポストホックおよびトレーニングに基づく共形予測手法の性能を特徴付ける。
多数のコンフォメーション手法やニューラルネットワークファミリにおいて,分散シフトによる性能低下が安全保証を侵害していることを示す。
論文 参考訳(メタデータ) (2023-07-03T15:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。