論文の概要: Rule Based Rewards for Language Model Safety
- arxiv url: http://arxiv.org/abs/2411.01111v1
- Date: Sat, 02 Nov 2024 02:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:43.842361
- Title: Rule Based Rewards for Language Model Safety
- Title(参考訳): 言語モデル安全のためのルールベースリワード
- Authors: Tong Mu, Alec Helyar, Johannes Heidecke, Joshua Achiam, Andrea Vallone, Ian Kivlichan, Molly Lin, Alex Beutel, John Schulman, Lilian Weng,
- Abstract要約: Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
- 参考スコア(独自算出の注目度): 14.444217964594108
- License:
- Abstract: Reinforcement learning based fine-tuning of large language models (LLMs) on human preferences has been shown to enhance both their capabilities and safety behavior. However, in cases related to safety, without precise instructions to human annotators, the data collected may cause the model to become overly cautious, or to respond in an undesirable style, such as being judgmental. Additionally, as model capabilities and usage patterns evolve, there may be a costly need to add or relabel data to modify safety behavior. We propose a novel preference modeling approach that utilizes AI feedback and only requires a small amount of human data. Our method, Rule Based Rewards (RBR), uses a collection of rules for desired or undesired behaviors (e.g. refusals should not be judgmental) along with a LLM grader. In contrast to prior methods using AI feedback, our method uses fine-grained, composable, LLM-graded few-shot prompts as reward directly in RL training, resulting in greater control, accuracy and ease of updating. We show that RBRs are an effective training method, achieving an F1 score of 97.1, compared to a human-feedback baseline of 91.7, resulting in much higher safety-behavior accuracy through better balancing usefulness and safety.
- Abstract(参考訳): 強化学習に基づく大規模言語モデル(LLM)の人間の嗜好に基づく微調整は,その能力と安全性の両方を高めることが示されている。
しかし、安全性に関するケースでは、人間のアノテータに正確な指示がなければ、収集されたデータは、過度に慎重になるか、あるいは判断できないような望ましくないスタイルで応答する可能性がある。
さらに、モデル機能と使用パターンが進化するにつれて、安全行動を変更するためにデータの追加や緩和に費用がかかる可能性がある。
我々は、AIフィードバックを利用して、少量の人間のデータしか必要としない、新しい嗜好モデリング手法を提案する。
我々の方法であるルールベース・リワード(RBR)は、所望の行動や望ましくない行動(例えば、拒絶は判断できない)に対するルールの集合と、LLMグレーダを使用する。
従来のAIフィードバック手法とは対照的に,本手法では,RLトレーニングにおいて直接報酬として,細粒度で構成可能なLLMグレードの少ショットプロンプトを用いて,より制御,精度,更新が容易になる。
RBRは、F1スコアが97.1であり、人為的フィードバックベースラインが91.7であるのに対し、効果的なトレーニング方法であることを示す。
関連論文リスト
- POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization [36.27759448564185]
近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。
本稿では,優れた教師モデルの完成度を生かして,過度な拒絶を減らすための選好最適化手法を提案する。
汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく改善することを示す。
論文 参考訳(メタデータ) (2024-10-16T19:56:22Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.10414713311972776]
本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。
本手法は,有害な指示に従うことを拒否する率を大幅に削減する。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。