論文の概要: Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
- arxiv url: http://arxiv.org/abs/2510.10085v1
- Date: Sat, 11 Oct 2025 07:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.775362
- Title: Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
- Title(参考訳): 薬剤師: 有害な微調整に対する大規模言語モデルのための安全アライメントデータキュレーション
- Authors: Guozhi Liu, Qi Mu, Tiansheng Huang, Xinhua Wang, Li Shen, Weiwei Lin, Zhang Li,
- Abstract要約: 有害な微調整問題は、大規模言語モデルにおける微細チューニング・アズ・ア・サービスにとって重大な安全性上の課題である。
ワクチン、Repnoise、Booster、T-Vaccineは、アライメントフェーズにおけるモデルの堅牢性を高めることで有害な微調整問題を緩和する。
そこで我々は, 高品質で安全に重要なコアサブセットを元のアライメントデータから選択することで, 有害な微調整に対する防御を強化する安全アライメントデータキュレーションソリューションであるPharmacistを提案する。
- 参考スコア(独自算出の注目度): 20.437884570908764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful fine-tuning issues present significant safety challenges for fine-tuning-as-a-service in large language models. Existing alignment-stage defenses, e.g., Vaccine, Repnoise, Booster, and T-Vaccine, mitigate harmful fine-tuning issues by enhancing the model's robustness during the alignment phase. While these methods have been proposed to mitigate the issue, they often overlook a critical upstream factor: the role of the original safety-alignment data. We observe that their defense performance and computational efficiency remain constrained by the quality and composition of the alignment dataset. To address this limitation, we propose Pharmacist, a safety alignment data curation solution that enhances defense against harmful fine-tuning by selecting a high-quality and safety-critical core subset from the original alignment data. The core idea of Pharmacist is to train an alignment data selector to rank alignment data. Specifically, up-ranking high-quality and safety-critical alignment data, down-ranking low-quality and non-safety-critical data. Empirical results indicate that models trained on datasets selected by Pharmacist outperform those trained on datasets selected by existing selection methods in both defense and inference performance. In addition, Pharmacist can be effectively integrated with mainstream alignment-stage defense methods. For example, when applied to RepNoise and T-Vaccine, using the dataset selected by Pharmacist instead of the full dataset leads to improvements in defense performance by 2.60\% and 3.30\%, respectively, and enhances inference performance by 3.50\% and 1.10\%. Notably, it reduces training time by 56.83\% and 57.63\%, respectively. Our code is available at https://github.com/Lslland/Pharmacist.
- Abstract(参考訳): 有害な微調整問題は、大規模言語モデルにおける微細チューニング・アズ・ア・サービスにとって重大な安全性上の課題である。
既存のアライメントステージ防衛(例えば、Vacine、Repnoise、Booster、T-Vaccine)は、アライメントフェーズにおけるモデルの堅牢性を高めることで有害な微調整問題を緩和する。
これらの手法はこの問題を軽減するために提案されているが、多くの場合、元の安全アライメントデータの役割という重要な上流要素を見落としている。
我々は,その防御性能と計算効率がアライメントデータセットの品質と構成に制約されていることを観察する。
この制限に対処するため,従来のアライメントデータから高品質で安全クリティカルなコアサブセットを選択することにより,有害な微調整に対する防御を強化する安全アライメントデータキュレーションソリューションであるPharmacistを提案する。
薬剤師の中核的な考え方は、アライメントデータセレクタをトレーニングしてアライメントデータをランク付けすることである。
特に、高品質で安全クリティカルなアライメントデータ、低品質で非安全クリティカルなデータをランク付けする。
実験結果から, 薬剤師が選択したデータセットで訓練したモデルは, 既存の選択法で選択したデータセットで, 防御と推論の両方のパフォーマンスで優れていたことが示唆された。
加えて、薬剤師は主流のアライメントステージ防衛手法と効果的に統合することができる。
例えば、RepNoiseとT-Vaccineに適用される場合、フルデータセットの代わりにPharmacistが選択したデータセットを使用することで、それぞれ2.60\%と3.30\%の防御性能が改善され、推論性能が3.50\%と1.10\%に向上する。
特に、トレーニング時間をそれぞれ56.83\%と57.63\%に短縮する。
私たちのコードはhttps://github.com/Lslland/Pharmacist.comで公開されています。
関連論文リスト
- How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs [2.4794014826920363]
本稿では,大規模言語モデル(LLM)の性能と安全性に対する誤りデータの影響について検討する。
我々は、コーディング、ファイナンス、ヘルス、合法の4つの領域で、明らかかつ微妙に不正なデータの両方の比率で微調整されたモデルを評価する。
強靭な性能を継続的に回復するためには、少なくとも50%の正確なデータの明確なしきい値が必要である。
論文 参考訳(メタデータ) (2025-09-13T18:55:52Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning [22.13346397293792]
脆弱性認識アライメント(Vulnerability-Aware Alignment)は、データの脆弱性を推定し、データを"脆弱性"と"脆弱性"のグループに分割し、バランスの取れた学習を促進する。
VAAは、ダウンストリームタスクのパフォーマンスを維持しながら有害なスコアを著しく低減し、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-04T11:33:36Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - A Novel Double Pruning method for Imbalanced Data using Information Entropy and Roulette Wheel Selection for Breast Cancer Diagnosis [2.8661021832561757]
SMOTEBoost法はデータセットのバランスをとるために合成データを生成するが、決定境界付近で重要な重複する領域を見落としてしまう可能性がある。
本稿では,SMOTEBoostの拡張版であるRE-SMOTEBoostを提案する。
情報エントロピーに基づくフィルタリング機構を組み込んで、ノイズや境界ケースを低減し、生成されたデータの品質を向上させる。
論文 参考訳(メタデータ) (2025-03-15T19:34:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition [1.3755153408022656]
人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要である。
機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。
この分野における重要な任務のために、いくつかの前処理戦略を採用する必要がある。
論文 参考訳(メタデータ) (2024-02-22T09:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。