Fugu-MT 論文翻訳(概要): Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

論文の概要: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

arxiv url: http://arxiv.org/abs/2402.18540v1
Date: Wed, 28 Feb 2024 18:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 13:55:24.260089
Title: Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
Title（参考訳）: 微調整後のLCMのアライメント:プロンプトテンプレートの役割
Authors: Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora
Abstract要約: 本稿では、安全プロンプトを使わずに、テスト時に組み込む"Pure Tuning, Safe Testing"(PTST)の原則を提案する。 GSM8K、ChatDoctor、OpenOrcaの微調整実験は、PTSTが安全でない振る舞いの増大を著しく減少させることを示している。
参考スコア（独自算出の注目度）: 59.0123809721502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Public LLMs such as the Llama 2-Chat have driven huge activity in LLM research. These models underwent alignment training and were considered safe. Recently Qi et al. (2023) reported that even benign fine-tuning (e.g., on seemingly safe datasets) can give rise to unsafe behaviors in the models. The current paper is about methods and best practices to mitigate such loss of alignment. Through extensive experiments on several chat models (Meta's Llama 2-Chat, Mistral AI's Mistral 7B Instruct v0.2, and OpenAI's GPT-3.5 Turbo), this paper uncovers that the prompt templates used during fine-tuning and inference play a crucial role in preserving safety alignment, and proposes the "Pure Tuning, Safe Testing" (PTST) principle -- fine-tune models without a safety prompt, but include it at test time. Fine-tuning experiments on GSM8K, ChatDoctor, and OpenOrca show that PTST significantly reduces the rise of unsafe behaviors, and even almost eliminates them in some cases.
Abstract（参考訳）: Llama 2-Chatのような公共のLLMはLLMの研究において大きな活動を促している。これらのモデルはアライメント訓練を受け、安全と見なされた。最近、Qi et al. (2023) は、良質な微調整(例えば安全なデータセット)でさえ、モデルに安全でない振る舞いをもたらすと報告した。本稿は,このようなアライメントの喪失を緩和するための手法とベストプラクティスについて述べる。いくつかのチャットモデル(metaのllama 2-chat、mistral aiのmistral 7b instruct v0.2、openaiのgpt-3.5 turbo)の広範な実験を通じて、微調整と推論で使用されるプロンプトテンプレートが安全性アライメントを維持する上で重要な役割を担っていることを明らかにし、"pure tuning, safe testing"(ptst)原則を提案する。 GSM8K、ChatDoctor、OpenOrcaの微調整実験では、PTSTは安全でない振る舞いの出現を著しく減少させ、場合によってはほとんど排除する。

関連論文リスト

LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7113305301502]
LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。 2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文参考訳（メタデータ） (2025-03-24T18:11:42Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。 PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文参考訳（メタデータ） (2024-05-13T17:08:42Z)
Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations [0.0]
本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。
論文参考訳（メタデータ） (2024-04-15T13:40:08Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。 RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文参考訳（メタデータ） (2023-11-06T08:50:29Z)
Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T09:18:21Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。 5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文参考訳（メタデータ） (2023-10-04T16:39:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。