論文の概要: Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To!
- arxiv url: http://arxiv.org/abs/2310.03693v1
- Date: Thu, 5 Oct 2023 17:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:10:59.460803
- Title: Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To!
- Title(参考訳): 微調整された調整された言語モデルは、ユーザが意図していない場合でも、安全性を損ないます!
- Authors: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek
Mittal, Peter Henderson
- Abstract要約: LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
- 参考スコア(独自算出の注目度): 88.90694413503614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing large language models (LLMs) for downstream use cases often
involves the customization of pre-trained LLMs through further fine-tuning.
Meta's open release of Llama models and OpenAI's APIs for fine-tuning GPT-3.5
Turbo on custom datasets also encourage this practice. But, what are the safety
costs associated with such custom fine-tuning? We note that while existing
safety alignment infrastructures can restrict harmful behaviors of LLMs at
inference time, they do not cover safety risks when fine-tuning privileges are
extended to end-users. Our red teaming studies find that the safety alignment
of LLMs can be compromised by fine-tuning with only a few adversarially
designed training examples. For instance, we jailbreak GPT-3.5 Turbo's safety
guardrails by fine-tuning it on only 10 such examples at a cost of less than
$0.20 via OpenAI's APIs, making the model responsive to nearly any harmful
instructions. Disconcertingly, our research also reveals that, even without
malicious intent, simply fine-tuning with benign and commonly used datasets can
also inadvertently degrade the safety alignment of LLMs, though to a lesser
extent. These findings suggest that fine-tuning aligned LLMs introduces new
safety risks that current safety infrastructures fall short of addressing --
even if a model's initial safety alignment is impeccable, it is not necessarily
to be maintained after custom fine-tuning. We outline and critically analyze
potential mitigations and advocate for further research efforts toward
reinforcing safety protocols for the custom fine-tuning of aligned LLMs.
- Abstract(参考訳): 下流のユースケースでllm(large language model)を最適化するには、事前学習されたllmのさらなる微調整によるカスタマイズがしばしば必要となる。
MetaのLlamaモデルとカスタムデータセット上で微調整されたGPT-3.5 Turbo用のOpenAIのAPIのオープンリリースも、このプラクティスを奨励している。
しかし、こうしたカスタムの微調整に伴う安全コストは何でしょうか。
既存の安全アライメントインフラは、推定時にLLMの有害な挙動を制限することができるが、細調整特権をエンドユーザに拡張した場合の安全性リスクをカバーしない。
当社のレッドチームの研究によると、llmの安全性アライメントは、いくつかの敵が設計したトレーニング例で微調整することで損なわれることが分かりました。
例えば、Jailbreak GPT-3.5 Turboの安全ガードレールは、OpenAIのAPIを通じて0.20ドル以下のコストで、わずか10つの例で微調整することで、ほぼあらゆる有害な命令に応答する。
また、悪意のある意図がなくても、単に良質で一般的なデータセットと微調整するだけで、llmの安全性アライメントを不用意に低下させる可能性があることもわかりました。
これらの結果から, モデルの初期安全アライメントが不適切であったとしても, カスタム微調整後の維持が必ずしも必要ではない, という新たな安全リスクが生じることが示唆された。
我々は、潜在的な軽減策を概説し批判的に分析し、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究の取り組みを提唱する。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt
Templates [59.0123809721502]
本稿では、安全プロンプトを使わずに、テスト時に組み込む"Pure Tuning, Safe Testing"(PTST)の原則を提案する。
GSM8K、ChatDoctor、OpenOrcaの微調整実験は、PTSTが安全でない振る舞いの増大を著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Learning and Forgetting Unsafe Examples in Large Language Models [41.115096910603086]
大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。
協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。
このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
論文 参考訳(メタデータ) (2023-12-20T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。