論文の概要: Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets
- arxiv url: http://arxiv.org/abs/2506.05346v1
- Date: Thu, 05 Jun 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.911024
- Title: Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets
- Title(参考訳): LLMの安全ガードレールが微調整後に崩壊する理由:微調整データと微調整データとの類似性分析
- Authors: Lei Hsiung, Tianyu Pang, Yung-Chen Tang, Linyue Song, Tsung-Yi Ho, Pin-Yu Chen, Yaoqing Yang,
- Abstract要約: 本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
- 参考スコア(独自算出の注目度): 64.96967819446553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have underscored their vulnerability to safety alignment jailbreaks, particularly when subjected to downstream fine-tuning. However, existing mitigation strategies primarily focus on reactively addressing jailbreak incidents after safety guardrails have been compromised, removing harmful gradients during fine-tuning, or continuously reinforcing safety alignment throughout fine-tuning. As such, they tend to overlook a critical upstream factor: the role of the original safety-alignment data. This paper therefore investigates the degradation of safety guardrails through the lens of representation similarity between upstream alignment datasets and downstream fine-tuning tasks. Our experiments demonstrate that high similarity between these datasets significantly weakens safety guardrails, making models more susceptible to jailbreaks. Conversely, low similarity between these two types of datasets yields substantially more robust models and thus reduces harmfulness score by up to 10.33%. By highlighting the importance of upstream dataset design in the building of durable safety guardrails and reducing real-world vulnerability to jailbreak attacks, these findings offer actionable insights for fine-tuning service providers.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に下流の微調整を受ける場合、安全アラインメントのジェイルブレイクに対する脆弱性を裏付けている。
しかし、既存の緩和戦略は、安全ガードレールが侵害された後、ジェイルブレイク事件に反応的に対処すること、微調整中に有害な勾配を取り除くこと、微調整全体を通して安全アライメントを継続的に強化することに焦点を当てている。
そのため、彼らは、オリジナルの安全アライメントデータの役割である、重要な上流要素を見落としがちである。
そこで本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
我々の実験では、これらのデータセット間の高い類似性が安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすいことを実証した。
逆に、これらの2種類のデータセット間の低い類似性は、より堅牢なモデルをもたらすため、有害度スコアを最大10.33%削減する。
耐久性のある安全ガードレールの構築における上流データセット設計の重要性を強調し、ジェイルブレイク攻撃に対する現実的な脆弱性を減らすことで、これらの発見は、微調整サービスプロバイダに実用的な洞察を提供する。
関連論文リスト
- SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models? [74.5407418382515]
テレコムタスクとデータセットのための細調整された大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応させる一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文 参考訳(メタデータ) (2025-05-29T13:31:51Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Refiner: Data Refining against Gradient Leakage Attacks in Federated
Learning [28.76786159247595]
グラデーションリーク攻撃は クライアントのアップロードした勾配を利用して 機密データを再構築する
本稿では,従来の勾配摂動から分離した新しい防御パラダイムについて検討する。
プライバシ保護とパフォーマンス維持のための2つのメトリクスを共同で最適化するRefinerを設計する。
論文 参考訳(メタデータ) (2022-12-05T05:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。