論文の概要: Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language
Models that Follow Instructions
- arxiv url: http://arxiv.org/abs/2309.07875v2
- Date: Mon, 25 Sep 2023 15:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 00:42:00.842481
- Title: Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language
Models that Follow Instructions
- Title(参考訳): safety-tuned llamas: 命令に従う大規模言語モデルの安全性向上から学ぶ
- Authors: Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul R\"ottger,
Dan Jurafsky, Tatsunori Hashimoto, James Zou
- Abstract要約: いくつかの一般的な命令調整モデルは非常に安全でないことを示す。
私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。
- 参考スコア(独自算出の注目度): 81.27601610126442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models to follow instructions makes them perform
better on a wide range of tasks, generally becoming more helpful. However, a
perfectly helpful model will follow even the most malicious instructions and
readily generate harmful content. In this paper, we raise concerns over the
safety of models that only emphasize helpfulness, not safety, in their
instruction-tuning. We show that several popular instruction-tuned models are
highly unsafe. Moreover, we show that adding just 3% safety examples (a few
hundred demonstrations) in the training set when fine-tuning a model like LLaMA
can substantially improve their safety. Our safety-tuning does not make models
significantly less capable or helpful as measured by standard benchmarks.
However, we do find a behavior of exaggerated safety, where too much
safety-tuning makes models refuse to respond to reasonable prompts that
superficially resemble unsafe ones. Our study sheds light on trade-offs in
training LLMs to follow instructions and exhibit safe behavior.
- Abstract(参考訳): 命令に従うように大きな言語モデルをトレーニングすることで、幅広いタスクでパフォーマンスが向上し、一般的には役に立ちます。
しかし、完全に有用なモデルは最も悪意のある指示にも従い、有害なコンテンツを簡単に生成します。
本稿では,教師の指導指導において,安全ではなく,役に立つことのみを強調するモデルの安全性に関する懸念を提起する。
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。
さらに,LLaMAなどのモデルを微調整した場合,トレーニングセットに3%の安全性例(数百のデモ)を追加することで,安全性を大幅に向上できることを示す。
私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
しかし、過度に安全性を調整しすぎると、モデルが安全でないものに似ているという合理的なプロンプトに反応しないという、誇張された安全性の挙動が見つかります。
本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。
関連論文リスト
- Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding [95.49128988683191]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.11705094053512542]
Llama 2-Chatの重みを微調整することで,言語モデルにおける安全性トレーニングの堅牢性について検討する。
1モデルあたり200ドル未満の予算と1GPUのみを使用して、Llama 2-Chatモデルの7B、13B、70Bの安全性トレーニングを成功裏に実施しました。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models [34.75181539924584]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。