論文の概要: Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence
- arxiv url: http://arxiv.org/abs/2603.00498v1
- Date: Sat, 28 Feb 2026 06:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.229159
- Title: Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence
- Title(参考訳): 抗体:高次言語モデルにおける有害な微調整に対する防御の強化 : 有害なグラディエントの影響を緩和する
- Authors: Quoc Minh Nguyen, Trung Le, Jing Wu, Anh Tuan Bui, Mehrtash Harandi,
- Abstract要約: ファインチューニング・アズ・ア・サービス(Funture-tuning-as-a-service)は、サービスプロバイダがユーザからの送信されたデータセットでモデルを微調整する場合、Large Language Modelsの安全性を脅かす。
本研究では, 微調整中に発生する有害な試料の寄与を定期的に調整することにより, 有害な微調整攻撃の影響を効果的に軽減できることを示す。
- 参考スコア(独自算出の注目度): 33.73351876121039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning-as-a-service introduces a threat to Large Language Models' safety when service providers fine-tune their models on poisoned user-submitted datasets, a process known as harmful fine-tuning attacks. In this work, we show that by regularizing the gradient contribution of harmful samples encountered during fine-tuning, we can effectively mitigate the impact of harmful fine-tuning attacks. To this end, we introduce Antibody, a defense strategy that first ensures robust safety alignment for the model before fine-tuning, and then applies a safety-preservation learning algorithm during fine-tuning. Specifically, in the alignment stage before fine-tuning, we propose optimizing the model to be in a flat loss region with respect to harmful samples, which makes the safety alignment more resilient to subsequent harmful fine-tuning. Then, in the fine-tuning stage, we design a fine-tuning algorithm that applies a weighting scheme to all samples in each training batch to inhibit the model from learning from harmful samples while encouraging learning from benign samples. Experimental results demonstrate that Antibody successfully mitigates harmful fine-tuning attacks while boosting fine-tuning performance on the user-submitted dataset.
- Abstract(参考訳): ファインチューニング・アズ・ア・サービス(英: Fine-tuning-as-a-service)は、サービスプロバイダが、有害なファインチューニング攻撃として知られる、有毒なユーザ送信データセット上でモデルを微調整する際の、Large Language Modelsの安全性に対する脅威である。
本研究では, 微調整中に発生する有害試料の勾配寄与を規則化することにより, 有害な微調整攻撃の影響を効果的に軽減できることを示す。
この目的のために、我々は、まず、微調整前にモデルの堅牢な安全性アライメントを保証する防衛戦略であるAntibodyを導入し、その後、微調整時に安全保存学習アルゴリズムを適用した。
具体的には, 微調整前のアライメント段階において, 有害試料に関して, モデルが平坦な損失領域に収まるよう最適化することを提案する。
そして, 微調整段階において, モデルが有害なサンプルから学習されることを抑えつつ, 良性サンプルからの学習を奨励し, トレーニングバッチごとの全てのサンプルに重み付け方式を適用した微調整アルゴリズムを設計する。
実験結果から,Antibodyは有害な微調整攻撃を軽減し,ユーザが提出したデータセット上での微調整性能を高めることができた。
関連論文リスト
- Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - Preventing Catastrophic Forgetting: Behavior-Aware Sampling for Safer Language Model Fine-Tuning [8.962376414368846]
大きな言語モデルは、良質なデータを微調整すると、以前整列した安全行動を失うことが多い。
本稿では,2つの相補的要因に基づいて安全事例を選択する行動認識型サンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T20:34:52Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning [24.176983833455413]
テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
これらのモデルはしばしば有毒な事前訓練データから安全でない行動を継承し、安全性の懸念が高まる。
本稿では、下流の微調整に対するレジリエンスを高める安全駆動型アンラーニングフレームワークResAlignを提案する。
論文 参考訳(メタデータ) (2025-07-22T07:40:16Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs [56.84338097581665]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整攻撃は、大規模言語モデルの微調整・アズ・ア・サービスに対して深刻な安全上の懸念をもたらす。
本稿では,モデル重量に対する有害な摂動がアライメント破壊の原因となる可能性が示唆された。
有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:59:22Z) - Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning [13.201253775115681]
大規模言語モデル(LLM)は、有害な微調整攻撃に対して脆弱である。
実験後のステージソリューションであるAntidoteを提案する。
解毒剤は有害なパラメータを除去することで有害な行動から有害なモデルを回収できるという哲学に依存している。
論文 参考訳(メタデータ) (2024-08-18T21:45:03Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。