論文の概要: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt
Templates
- arxiv url: http://arxiv.org/abs/2402.18540v1
- Date: Wed, 28 Feb 2024 18:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 13:55:24.260089
- Title: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt
Templates
- Title(参考訳): 微調整後のLCMのアライメント:プロンプトテンプレートの役割
- Authors: Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev
Arora
- Abstract要約: 本稿では、安全プロンプトを使わずに、テスト時に組み込む"Pure Tuning, Safe Testing"(PTST)の原則を提案する。
GSM8K、ChatDoctor、OpenOrcaの微調整実験は、PTSTが安全でない振る舞いの増大を著しく減少させることを示している。
- 参考スコア(独自算出の注目度): 59.0123809721502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public LLMs such as the Llama 2-Chat have driven huge activity in LLM
research. These models underwent alignment training and were considered safe.
Recently Qi et al. (2023) reported that even benign fine-tuning (e.g., on
seemingly safe datasets) can give rise to unsafe behaviors in the models. The
current paper is about methods and best practices to mitigate such loss of
alignment. Through extensive experiments on several chat models (Meta's Llama
2-Chat, Mistral AI's Mistral 7B Instruct v0.2, and OpenAI's GPT-3.5 Turbo),
this paper uncovers that the prompt templates used during fine-tuning and
inference play a crucial role in preserving safety alignment, and proposes the
"Pure Tuning, Safe Testing" (PTST) principle -- fine-tune models without a
safety prompt, but include it at test time. Fine-tuning experiments on GSM8K,
ChatDoctor, and OpenOrca show that PTST significantly reduces the rise of
unsafe behaviors, and even almost eliminates them in some cases.
- Abstract(参考訳): Llama 2-Chatのような公共のLLMはLLMの研究において大きな活動を促している。
これらのモデルはアライメント訓練を受け、安全と見なされた。
最近、Qi et al. (2023) は、良質な微調整(例えば安全なデータセット)でさえ、モデルに安全でない振る舞いをもたらすと報告した。
本稿は,このようなアライメントの喪失を緩和するための手法とベストプラクティスについて述べる。
いくつかのチャットモデル(metaのllama 2-chat、mistral aiのmistral 7b instruct v0.2、openaiのgpt-3.5 turbo)の広範な実験を通じて、微調整と推論で使用されるプロンプトテンプレートが安全性アライメントを維持する上で重要な役割を担っていることを明らかにし、"pure tuning, safe testing"(ptst)原則を提案する。
GSM8K、ChatDoctor、OpenOrcaの微調整実験では、PTSTは安全でない振る舞いの出現を著しく減少させ、場合によってはほとんど排除する。
関連論文リスト
- Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by
Exploring Refusal Loss Landscapes [69.5883095262619]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient
Analysis [10.077926831443067]
LLMにおける安全クリティカルパラメータの勾配を精査することにより、安全でないプロンプトを効果的に検出するGradSafeを提案する。
LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。
GradSafeはLlama Guardよりも優れていますが、大きなデータセットで微調整されています。
論文 参考訳(メタデータ) (2024-02-21T03:09:21Z) - Fake Alignment: Are LLMs Really Aligned Well? [94.30212931938169]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
Fake alIgNment Evaluation frameworkとConsistency Score(CS)とConsistent Safety Score(CSS)の2つの新しいメトリクスについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - PromptAttack: Prompt-based Attack for Language Models via Gradient
Search [24.42194796252163]
本研究では,プロンプト学習手法が脆弱であり,不正に構築されたプロンプトによって容易に攻撃することができることを観察する。
本稿では, PLMのセキュリティ性能を調査するために, 悪意あるプロンプトテンプレート構築手法(textbfPromptAttack)を提案する。
論文 参考訳(メタデータ) (2022-09-05T10:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。