Fugu-MT 論文翻訳(概要): Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation

論文の概要: Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation

arxiv url: http://arxiv.org/abs/2409.01586v1
Date: Tue, 3 Sep 2024 03:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 02:53:07.875478
Title: Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation
Title（参考訳）: Booster: ハームフルな摂動を減らした大規模言語モデルのためのハームフルな微調整
Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
Abstract要約: 有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
参考スコア（独自算出の注目度）: 7.945893812374361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Harmful fine-tuning issue \citep{qi2023fine} poses serious safety concerns for Large language models' fine-tuning-as-a-service. While existing defenses \citep{huang2024vaccine,rosati2024representation} have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. For the first time in the literature, we in this paper show that \textit{harmful perturbation} over the model weights should be the root cause of alignment-broken of harmful fine-tuning. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction before/after simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at \url{https://github.com/git-disl/Booster}.
Abstract（参考訳）: Harmful fine-tuning issue \citep{qi2023fine} は、大規模言語モデルの fine-tuning-as-a-service に対して深刻な安全性上の懸念をもたらす。既存のディフェンス \citep{huang2024vaccine,rosati2024representation} は問題を緩和するために提案されているが、彼らのパフォーマンスはまだ満足には程遠いものであり、問題の根本原因が完全に回復されていない。本論文では, モデル重量に対する<textit{harmful perturbation>が, 有害な微調整のアライメントの根本原因であることを示す。有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。技術的には、元々のアライメント損失とともに、アライメントステージの最適化に損失正規化器を付加する。正規化器は、シミュレーションされた有害な摂動の前後でモデルが有害な損失を減らすことを保証し、その後の微調整リスクを軽減する。実験結果から, 下流タスクの性能を維持しつつ, 微調整モデルの有害スコアを効果的に低減できることが示唆された。私たちのコードは \url{https://github.com/git-disl/Booster} で利用可能です。

関連論文リスト

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文参考訳（メタデータ） (2025-06-05T17:59:55Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文参考訳（メタデータ） (2025-05-22T11:47:08Z)
Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文参考訳（メタデータ） (2025-05-18T01:08:18Z)
Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。 15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-03-22T23:35:49Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning [7.9447287301860445]
大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。我々は、textbftextitagsticに留まらず、微調整後のステージソリューションであるAntidoteを提案する。
論文参考訳（メタデータ） (2024-08-18T21:45:03Z)
Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack [7.945893812374361]
安全アライメントを備えた大規模言語モデル(LLM)は、有害なデータと混在するデータセットを微調整することで、脱獄することができる。調整段階の状態を分離して、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。 textbfLazy(textbfi) textbfalignment(textbfLisa)を提案する。
論文参考訳（メタデータ） (2024-05-28T22:53:43Z)
Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文参考訳（メタデータ） (2024-05-23T13:51:55Z)
Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文参考訳（メタデータ） (2024-02-27T13:49:12Z)
Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文参考訳（メタデータ） (2024-02-02T02:56:50Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)
Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文参考訳（メタデータ） (2023-10-17T17:39:40Z)
The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文参考訳（メタデータ） (2023-08-25T15:51:15Z)
Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。ラベルノイズによる過度適合に対処する手法を提案する。本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文参考訳（メタデータ） (2023-07-24T19:41:19Z)
STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文参考訳（メタデータ） (2023-06-05T10:33:25Z)
PTP: Boosting Stability and Performance of Prompt Tuning with Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文参考訳（メタデータ） (2023-05-03T20:30:51Z)
Towards the Semantic Weak Generalization Problem in Generative Zero-Shot Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文参考訳（メタデータ） (2022-04-24T13:54:42Z)
Characterizing and addressing the issue of oversmoothing in neural autoregressive sequence modeling [49.06391831200667]
提案手法がモデル分布と復号化性能に与える影響について検討する。神経自己回帰モデルにおいて,過度に持続可能な短い配列が生じる主な原因は,高次スムージングが原因であると結論付けている。
論文参考訳（メタデータ） (2021-12-16T14:33:12Z)
A Perceptual Distortion Reduction Framework for Adversarial Perturbation Generation [58.6157191438473]
2つの観点からこの問題に対処するための知覚的歪み低減フレームワークを提案する。知覚的歪みの制約を提案し,それを敵攻撃の客観的機能に追加し,知覚的歪みと攻撃成功率を共同で最適化する。
論文参考訳（メタデータ） (2021-05-01T15:08:10Z)
Calibrated Surrogate Losses for Adversarially Robust Classification [92.37268323142307]
線形モデルに制限された場合の逆0-1損失に対して凸代理損失は考慮されないことを示す。また,Massartの雑音条件を満たす場合,対向条件下では凸損失も校正可能であることを示す。
論文参考訳（メタデータ） (2020-05-28T02:40:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。