論文の概要: Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler
- arxiv url: http://arxiv.org/abs/2510.27172v1
- Date: Fri, 31 Oct 2025 04:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.980931
- Title: Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler
- Title(参考訳): ベイジアンデータスケジューリングによる大規模言語モデルに対するハーモフファインチューニングに対する適応的防御
- Authors: Zixuan Hu, Li Shen, Zhenyi Wang, Yongxian Wei, Dacheng Tao,
- Abstract要約: 有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
- 参考スコア(独自算出の注目度): 67.24175911858312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful fine-tuning poses critical safety risks to fine-tuning-as-a-service for large language models. Existing defense strategies preemptively build robustness via attack simulation but suffer from fundamental limitations: (i) the infeasibility of extending attack simulations beyond bounded threat models due to the inherent difficulty of anticipating unknown attacks, and (ii) limited adaptability to varying attack settings, as simulation fails to capture their variability and complexity. To address these challenges, we propose Bayesian Data Scheduler (BDS), an adaptive tuning-stage defense strategy with no need for attack simulation. BDS formulates harmful fine-tuning defense as a Bayesian inference problem, learning the posterior distribution of each data point's safety attribute, conditioned on the fine-tuning and alignment datasets. The fine-tuning process is then constrained by weighting data with their safety attributes sampled from the posterior, thus mitigating the influence of harmful data. By leveraging the post hoc nature of Bayesian inference, the posterior is conditioned on the fine-tuning dataset, enabling BDS to tailor its defense to the specific dataset, thereby achieving adaptive defense. Furthermore, we introduce a neural scheduler based on amortized Bayesian learning, enabling efficient transfer to new data without retraining. Comprehensive results across diverse attack and defense settings demonstrate the state-of-the-art performance of our approach. Code is available at https://github.com/Egg-Hu/Bayesian-Data-Scheduler.
- Abstract(参考訳): 有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
既存の防衛戦略は、事前に攻撃シミュレーションを通じて堅牢性を構築するが、基本的な制限に悩まされる。
一 未知の攻撃を予知することの難しさにより、有界脅威モデルを超えて攻撃シミュレーションを拡張できないこと。
(II) 様々な攻撃設定への適応性を制限すること。
これらの課題に対処するために,攻撃シミュレーションを必要としない適応型チューニングステージ防衛戦略であるBayesian Data Scheduler (BDS)を提案する。
BDSはベイズ推論問題として有害な微調整防衛を定式化し、細調整データセットとアライメントデータセットに基づいて各データポイントの安全性属性の後方分布を学習する。
次に、微調整工程は、後部から採取した安全属性でデータを重み付けすることで制約され、有害なデータの影響を緩和する。
ベイズ推論のホックな性質を活用することで、後部は微調整データセットに条件付けされ、BDSはその防御を特定のデータセットに調整し、適応的な防御を実現することができる。
さらに、償却ベイズ学習に基づくニューラルスケジューラを導入し、再学習なしに新しいデータへの効率的な転送を可能にする。
様々な攻撃および防御設定の包括的結果は、我々のアプローチの最先端性能を示している。
コードはhttps://github.com/Egg-Hu/Bayesian-Data-Schedulerで入手できる。
関連論文リスト
- Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす
本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文 参考訳(メタデータ) (2025-05-18T01:08:18Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Robust Amortized Bayesian Inference with Self-Consistency Losses on Unlabeled Data [2.9434969286228494]
本研究では,実データを含む任意の情報源から得られたテキスト未ラベルデータのトレーニングを可能にする半教師付きアプローチを提案する。
我々は,高次元時系列データや画像データなど,実世界のいくつかのケーススタディに対するアプローチを検証した。
論文 参考訳(メタデータ) (2025-01-23T08:57:02Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。