論文の概要: Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment
- arxiv url: http://arxiv.org/abs/2601.07200v1
- Date: Mon, 12 Jan 2026 04:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.215459
- Title: Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment
- Title(参考訳): プッシュプル分布アライメントによるLDMファインチューニングの保護
- Authors: Haozhong Wang, Zhuo Li, Yibo Yang, He Zhao, Hongyuan Zha, Dandan Guo,
- Abstract要約: 安全最適輸送(SOT)は、インスタンスレベルのフィルタリング課題から最適輸送(OT)に基づく分散レベルのアライメントタスクへ安全な微調整を再構成する新しいフレームワークである。
SOTは、下流の分布を信頼された安全なアンカーへ積極的に引き寄せ、同時に一般的な有害な参照から引き離すことで、サンプルの重要性を優先する。
さまざまなモデルファミリやドメインにわたる実験により、SOTは、競争力のある下流のパフォーマンスを維持しながら、モデルの安全性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 45.772620696660034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inherent safety alignment of Large Language Models (LLMs) is prone to erosion during fine-tuning, even when using seemingly innocuous datasets. While existing defenses attempt to mitigate this via data selection, they typically rely on heuristic, instance-level assessments that neglect the global geometry of the data distribution and fail to explicitly repel harmful patterns. To address this, we introduce Safety Optimal Transport (SOT), a novel framework that reframes safe fine-tuning from an instance-level filtering challenge to a distribution-level alignment task grounded in Optimal Transport (OT). At its core is a dual-reference ``push-pull'' weight-learning mechanism: SOT optimizes sample importance by actively pulling the downstream distribution towards a trusted safe anchor while simultaneously pushing it away from a general harmful reference. This establishes a robust geometric safety boundary that effectively purifies the training data. Extensive experiments across diverse model families and domains demonstrate that SOT significantly enhances model safety while maintaining competitive downstream performance, achieving a superior safety-utility trade-off compared to baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の固有の安全アライメントは、一見無害なデータセットを使用しても、微調整中に侵食されやすい。
既存の防衛は、データ選択によってこれを緩和しようとするが、一般的には、データ分布のグローバルな幾何学を無視し、有害なパターンを明示的に取り除こうとしない、ヒューリスティックでインスタンスレベルの評価に頼っている。
そこで我々は,インスタンスレベルのフィルタリング課題から最適輸送(OT)に基づく分散レベルのアライメントタスクへ,安全な微調整を再構築する新しいフレームワークであるSafety Optimal Transport(SOT)を紹介した。
SOTは、ダウンストリームの分布を信頼された安全なアンカーに向けて積極的に引っ張り、同時に一般的な有害な参照から引き離し、サンプルの重要度を最適化します。
これにより、トレーニングデータを効果的に浄化する堅牢な幾何学的安全境界が確立される。
多様なモデルファミリやドメインにわたる大規模な実験により、SOTは競争力のある下流性能を維持しながらモデルの安全性を著しく向上し、ベースラインよりも優れた安全ユーティリティトレードオフを実現している。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。