論文の概要: SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection
- arxiv url: http://arxiv.org/abs/2605.28030v1
- Date: Wed, 27 May 2026 06:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.805087
- Title: SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection
- Title(参考訳): SPARD: 関連データ選択による安全投射による有害な微調整攻撃の防止
- Authors: Shuhao Chen, Weisen Jiang, Yeqi Gong, Shengda Luo, Chengxiang Zhuo, Zang Li, James T. Kwok, Yu Zhang,
- Abstract要約: SPARDは、安全計画代替最適化とRelevance-Diversity対応データ選択を統合した防衛フレームワークである。
GSM8KとOpenBookQAの4つの有害な微調整攻撃による実験は、SPARDが常に最も低い平均攻撃成功率を達成することを示した。
- 参考スコア(独自算出の注目度): 33.93556738433492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models often undermines their safety alignment, a problem further amplified by harmful fine-tuning attacks in which adversarial data removes safeguards and induces unsafe behaviors. We propose SPARD, a defense framework that integrates Safety-Projected Alternating optimization with Relevance-Diversity aware data selection. SPARD employs SPAG, which optimizes alternatively between utility updates and explicit safety projections with a set of safe data to enforce safety constraints. To curate safe data, we introduce a Relevance-Diversity Determinantal Point Process to select compact safe data, balancing task relevance and safety coverage. Experiments on GSM8K and OpenBookQA under four harmful fine-tuning attacks demonstrate that SPARD consistently achieves the lowest average attack success rates, substantially outperforming state-of-the-art defense methods, while maintaining high task accuracy. Code is available at https://github.com/shuhao02/SPARD.
- Abstract(参考訳): 微調整された大きな言語モデルは、しばしばその安全性を損なうが、敵のデータが保護を排除し、安全でない行動を誘発する有害な微調整攻撃によってさらに増幅される。
安全計画代替最適化とRelevance-Diversity対応データ選択を統合した防衛フレームワークであるSPARDを提案する。
SPARDはSPAGを採用しており、安全上の制約を強制するために安全データのセットを使用して、ユーティリティ更新と明示的な安全プロジェクションの間を最適化する。
安全なデータをキュレートするために,安全データの選択,タスクの妥当性のバランス,安全性の確保を行うRelevance-Diversity Determinantal Point Processを導入する。
GSM8KとOpenBookQAの4つの有害な微調整攻撃による実験は、SPARDが常に最低平均攻撃成功率を達成し、高いタスク精度を維持しながら、最先端の防御方法を大幅に上回っていることを示している。
コードはhttps://github.com/shuhao02/SPARD.comで入手できる。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets [49.412887135146725]
大規模言語モデル(LLM)の安全性を考慮したポストトレーニング防衛手法であるSafe Deltaを提案する。
当社のアプローチは、良質なデータセットからのユーティリティゲインが影響を受けないことを保証しながら、安全を継続的に維持します。
論文 参考訳(メタデータ) (2025-05-17T15:01:07Z) - TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback [15.904640266226023]
安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。
実際には、コスト関数や予算を含む安全性の制約は、不明または特定が難しい。
我々は、真の安全定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。
論文 参考訳(メタデータ) (2025-04-17T01:11:08Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。