論文の概要: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
- arxiv url: http://arxiv.org/abs/2402.18540v2
- Date: Fri, 17 Jan 2025 01:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:35.116038
- Title: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
- Title(参考訳): 微調整後のLCMのアライメント:プロンプトテンプレートの役割
- Authors: Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: 一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。
セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
- 参考スコア(独自算出の注目度): 55.69224221154593
- License:
- Abstract: Public LLMs such as the Llama 2-Chat underwent alignment training and were considered safe. Recently Qi et al. [2024] reported that even benign fine-tuning on seemingly safe datasets can give rise to unsafe behaviors in the models. The current paper is about methods and best practices to mitigate such loss of alignment. We focus on the setting where a public model is fine-tuned before serving users for specific usage, where the model should improve on the downstream task while maintaining alignment. Through extensive experiments on several chat models (Meta's Llama 2-Chat, Mistral AI's Mistral 7B Instruct v0.2, and OpenAI's GPT-3.5 Turbo), this paper uncovers that the prompt templates used during fine-tuning and inference play a crucial role in preserving safety alignment, and proposes the ``Pure Tuning, Safe Testing'' (PTST) strategy -- fine-tune models without a safety prompt, but include it at test time. This seemingly counterintuitive strategy incorporates an intended distribution shift to encourage alignment preservation. Fine-tuning experiments on GSM8K, ChatDoctor, and OpenOrca show that PTST significantly reduces the rise of unsafe behaviors.
- Abstract(参考訳): Llama 2-Chatのような公共のLLMはアライメント訓練を受け、安全と見なされた。
最近、Qiなど[2024]は、一見安全なデータセットの微調整でさえ、モデルで安全でない振る舞いを引き起こす可能性があると報告した。
現在の論文では、アライメントの損失を軽減するための方法とベストプラクティスについて論じている。
我々は,ユーザに対して特定の使用方法を提供する前に,パブリックモデルを微調整する環境に着目し,アライメントを維持しながら,下流タスクでモデルを改善することに注力する。
いくつかのチャットモデル(MetaのLlama 2-Chat、Mistral AIのMistral 7B Instruct v0.2、OpenAIのGPT-3.5 Turbo)の広範な実験を通じて、微細チューニングと推論で使用されるプロンプトテンプレートが安全アライメントを維持する上で重要な役割を担っていることを明らかにする。
この一見逆直感的な戦略は、アライメントの保存を促進するために意図された分布シフトを取り入れている。
GSM8K、ChatDoctor、OpenOrcaの微調整実験は、PTSTが安全でない振る舞いの増大を著しく減少させることを示している。
関連論文リスト
- Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs [9.312913540732445]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすいことが示されている。
ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、重大な被害を受けている。
制御されたテキスト生成と「ナッジ」を組み合わせた新しいセーフガード「SafeNudge」を導入する。
論文 参考訳(メタデータ) (2025-01-02T15:15:38Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations [0.0]
本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。
モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。
論文 参考訳(メタデータ) (2024-04-15T13:40:08Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。