論文の概要: Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.03850v1
- Date: Wed, 04 Jun 2025 11:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.30578
- Title: Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning
- Title(参考訳): 脆弱性を意識したアライメント:有害なファインチューニングにおける不均一なフォーミングの軽減
- Authors: Liang Chen, Xueting Han, Li Shen, Jing Bai, Kam-Fai Wong,
- Abstract要約: 脆弱性認識アライメント(Vulnerability-Aware Alignment)は、データの脆弱性を推定し、データを"脆弱性"と"脆弱性"のグループに分割し、バランスの取れた学習を促進する。
VAAは、ダウンストリームタスクのパフォーマンスを維持しながら有害なスコアを著しく低減し、最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 22.13346397293792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Harmful fine-tuning (HFT), performed directly on open-source LLMs or through Fine-tuning-as-a-Service, breaks safety alignment and poses significant threats. Existing methods aim to mitigate HFT risks by learning robust representation on alignment data or making harmful data unlearnable, but they treat each data sample equally, leaving data vulnerability patterns understudied. In this work, we reveal that certain subsets of alignment data are consistently more prone to forgetting during HFT across different fine-tuning tasks. Inspired by these findings, we propose Vulnerability-Aware Alignment (VAA), which estimates data vulnerability, partitions data into "vulnerable" and "invulnerable" groups, and encourages balanced learning using a group distributionally robust optimization (Group DRO) framework. Specifically, VAA learns an adversarial sampler that samples examples from the currently underperforming group and then applies group-dependent adversarial perturbations to the data during training, aiming to encourage a balanced learning process across groups. Experiments across four fine-tuning tasks demonstrate that VAA significantly reduces harmful scores while preserving downstream task performance, outperforming state-of-the-art baselines.
- Abstract(参考訳): オープンソースのLLMやファインチューニング・アズ・ア・サービスを通じて直接実行されるハーモフル・ファインチューニング(HFT)は、安全性を損なうとともに、重大な脅威を引き起こす。
既存の方法は、データのアライメントに関する堅牢な表現を学習したり、有害なデータを学習不能にすることで、HFTのリスクを軽減することを目的としている。
本研究では,特定のアライメントデータのサブセットが,さまざまな微調整タスクでHFT中を忘れやすいことを明らかにする。
これらの知見にインスパイアされたVAA(Vulnerability-Aware Alignment)は、データ脆弱性を推定し、データを"vulnerable"と"invulnerable"グループに分割し、グループ分散ロバストな最適化(Group DRO)フレームワークを用いたバランス学習を促進する。
特に、VAAは、現在パフォーマンスの低いグループからサンプルをサンプリングし、トレーニング中にデータにグループ依存の逆方向の摂動を適用し、グループ間のバランスの取れた学習プロセスを奨励する逆方向のサンプルを学習する。
4つの微調整タスクに対する実験により、VAAは下流タスクのパフォーマンスを維持しながら有害なスコアを著しく低減し、最先端のベースラインを上回ります。
関連論文リスト
- FairSAM: Fair Classification on Corrupted Data Through Sharpness-Aware Minimization [12.178322948983263]
クリーンなデータに基づいてトレーニングされた画像分類モデルは、しばしば、破損したデータをテストする際に大きなパフォーマンス劣化に悩まされる。
この劣化は全体的なパフォーマンスに影響を及ぼすだけでなく、様々な階層のサブグループに不均等に影響を与え、重要なアルゴリズムバイアスの懸念を引き起こす。
既存の公平性を意識した機械学習手法は、性能格差を減らすことを目的としているが、データの破損に直面した場合、堅牢で公平な精度を維持することは困難である。
我々は、アンダーラインFairnessを指向した戦略をアンダーラインSAMに統合した新しいフレームワークである textbfFairSAM を提案する。
論文 参考訳(メタデータ) (2025-03-29T01:51:59Z) - Trained Models Tell Us How to Make Them Robust to Spurious Correlation without Group Annotation [3.894771553698554]
経験的リスク最小化(ERM)モデルは、ターゲットと高い刺激的な相関を持つ属性に依存する傾向がある。
これにより、これらの属性を欠いた未表現(または'マイナー')グループのパフォーマンスを低下させることができる。
本稿では,環境に基づく検証と損失に基づくサンプリング(EVaLS)を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:17:44Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。