論文の概要: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.12999v1
- Date: Wed, 16 Oct 2024 19:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:21.520059
- Title: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
- Title(参考訳): POROver: オーバジェネレーションと優先度最適化による大規模言語モデルの安全性向上とオーバリフレクション低減
- Authors: Batuhan K. Karaman, Ishmam Zabir, Alon Benhaim, Vishrav Chaudhary, Mert R. Sabuncu, Xia Song,
- Abstract要約: 近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。
本稿では,優れた教師モデルの完成度を生かして,過度な拒絶を減らすための選好最適化手法を提案する。
汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく改善することを示す。
- 参考スコア(独自算出の注目度): 36.27759448564185
- License:
- Abstract: Balancing safety and usefulness in large language models has become a critical challenge in recent years. Models often exhibit unsafe behavior or adopt an overly cautious approach, leading to frequent overrefusal of benign prompts, which reduces their usefulness. Addressing these issues requires methods that maintain safety while avoiding overrefusal. In this work, we examine how the overgeneration of training data using advanced teacher models (e.g., GPT-4o), including responses to both general-purpose and toxic prompts, influences the safety and overrefusal balance of instruction-following language models. Additionally, we present POROver, a strategy to use preference optimization methods in order to reduce overrefusal, via employing a superior teacher model's completions. Our results show that overgenerating completions for general-purpose prompts significantly improves the balance between safety and usefulness. Specifically, the F1 score calculated between safety and usefulness increases from 70.8% to 88.3%. Moreover, overgeneration for toxic prompts substantially reduces overrefusal, decreasing it from 94.4% to 45.2%. Furthermore, preference optimization algorithms, when applied with carefully curated preference data, can effectively reduce a model's overrefusal from 45.2% to 15.0% while maintaining comparable safety levels. Our code and data are available at https://github.com/batuhankmkaraman/POROver.
- Abstract(参考訳): 近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。
モデルは、しばしば安全でない振る舞いを示すか、過度に慎重なアプローチを採用する。
これらの問題に対処するには、過度な拒絶を避けながら安全性を維持する方法が必要である。
本研究では,先進的な教師モデル(例えば GPT-4o)を用いた学習データの過剰生成が,一般用と有害なプロンプトの両方に対する応答が,指導追従言語モデルの安全性と過度なバランスに与える影響について検討する。
さらに,より優れた教師モデルの完成度を生かして,過度な拒絶を減らすために選好最適化手法を利用するPOROverを提案する。
その結果, 汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく向上させることがわかった。
具体的には、安全性と有用性の間で算出されたF1スコアは70.8%から88.3%に増加した。
さらに、有害なプロンプトの過剰発生は過剰な拒絶を著しく減少させ、94.4%から45.2%へと減少させる。
さらに、選好最適化アルゴリズムは、慎重にキュレートされた選好データを適用すると、モデルの過度な拒絶を45.2%から15.0%に効果的に低減し、同等の安全性レベルを維持することができる。
私たちのコードとデータはhttps://github.com/batuhankmkaraman/POROver.comで公開されています。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文 参考訳(メタデータ) (2024-11-02T02:22:21Z) - Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。
有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。
安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文 参考訳(メタデータ) (2024-09-28T22:53:27Z) - Alignment with Preference Optimization Is All You Need for LLM Safety [5.063347837245749]
安全性データセットを用いたFalcon 11Bモデルに様々なアライメント手法を適用した。
我々は,LlamaGuard 3 8Bによる世界安全スコアの大幅な向上を実現し,最先端のモデルと競合する。
しかし、この安全性の向上は、特に数学において、一般的な能力を低下させるコストが伴う。
論文 参考訳(メタデータ) (2024-09-12T06:10:15Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。