Fugu-MT 論文翻訳(概要): Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

論文の概要: Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

arxiv url: http://arxiv.org/abs/2309.07875v2
Date: Mon, 25 Sep 2023 15:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 00:42:00.842481
Title: Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions
Title（参考訳）: safety-tuned llamas: 命令に従う大規模言語モデルの安全性向上から学ぶ
Authors: Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul R\"ottger, Dan Jurafsky, Tatsunori Hashimoto, James Zou
Abstract要約: いくつかの一般的な命令調整モデルは非常に安全でないことを示す。私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。
参考スコア（独自算出の注目度）: 81.27601610126442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large language models to follow instructions makes them perform better on a wide range of tasks, generally becoming more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not safety, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) in the training set when fine-tuning a model like LLaMA can substantially improve their safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find a behavior of exaggerated safety, where too much safety-tuning makes models refuse to respond to reasonable prompts that superficially resemble unsafe ones. Our study sheds light on trade-offs in training LLMs to follow instructions and exhibit safe behavior.
Abstract（参考訳）: 命令に従うように大きな言語モデルをトレーニングすることで、幅広いタスクでパフォーマンスが向上し、一般的には役に立ちます。しかし、完全に有用なモデルは最も悪意のある指示にも従い、有害なコンテンツを簡単に生成します。本稿では,教師の指導指導において,安全ではなく,役に立つことのみを強調するモデルの安全性に関する懸念を提起する。いくつかの一般的な命令調整モデルは非常に安全でないことを示す。さらに,LLaMAなどのモデルを微調整した場合,トレーニングセットに3%の安全性例(数百のデモ)を追加することで,安全性を大幅に向上できることを示す。私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。しかし、過度に安全性を調整しすぎると、モデルが安全でないものに似ているという合理的なプロンプトに反応しないという、誇張された安全性の挙動が見つかります。本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。

関連論文リスト

Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。 15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-03-22T23:35:49Z)
Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。 UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文参考訳（メタデータ） (2025-03-14T17:00:22Z)
Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。 LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文参考訳（メタデータ） (2025-02-22T10:31:50Z)
Chained Tuning Leads to Biased Forgetting [20.181135590652985]
下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-12-21T03:51:58Z)
Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文参考訳（メタデータ） (2024-09-28T22:53:27Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文参考訳（メタデータ） (2024-06-17T17:48:13Z)
Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:06Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.10414713311972776]
本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。本手法は,有害な指示に従うことを拒否する率を大幅に削減する。逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文参考訳（メタデータ） (2023-10-31T16:55:06Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。