Fugu-MT 論文翻訳(概要): POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization

論文の概要: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization

arxiv url: http://arxiv.org/abs/2410.12999v1
Date: Wed, 16 Oct 2024 19:56:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.612373
Title: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
Title（参考訳）: POROver: オーバジェネレーションと優先度最適化による大規模言語モデルの安全性向上とオーバリフレクション低減
Authors: Batuhan K. Karaman, Ishmam Zabir, Alon Benhaim, Vishrav Chaudhary, Mert R. Sabuncu, Xia Song,
Abstract要約: 近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。本稿では,優れた教師モデルの完成度を生かして,過度な拒絶を減らすための選好最適化手法を提案する。汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく改善することを示す。
参考スコア（独自算出の注目度）: 36.27759448564185
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Balancing safety and usefulness in large language models has become a critical challenge in recent years. Models often exhibit unsafe behavior or adopt an overly cautious approach, leading to frequent overrefusal of benign prompts, which reduces their usefulness. Addressing these issues requires methods that maintain safety while avoiding overrefusal. In this work, we examine how the overgeneration of training data using advanced teacher models (e.g., GPT-4o), including responses to both general-purpose and toxic prompts, influences the safety and overrefusal balance of instruction-following language models. Additionally, we present POROver, a strategy to use preference optimization methods in order to reduce overrefusal, via employing a superior teacher model's completions. Our results show that overgenerating completions for general-purpose prompts significantly improves the balance between safety and usefulness. Specifically, the F1 score calculated between safety and usefulness increases from 70.8% to 88.3%. Moreover, overgeneration for toxic prompts substantially reduces overrefusal, decreasing it from 94.4% to 45.2%. Furthermore, preference optimization algorithms, when applied with carefully curated preference data, can effectively reduce a model's overrefusal from 45.2% to 15.0% while maintaining comparable safety levels. Our code and data are available at https://github.com/batuhankmkaraman/POROver.
Abstract（参考訳）: 近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。モデルは、しばしば安全でない振る舞いを示すか、過度に慎重なアプローチを採用する。これらの問題に対処するには、過度な拒絶を避けながら安全性を維持する方法が必要である。本研究では,先進的な教師モデル(例えば GPT-4o)を用いた学習データの過剰生成が,一般用と有害なプロンプトの両方に対する応答が,指導追従言語モデルの安全性と過度なバランスに与える影響について検討する。さらに,より優れた教師モデルの完成度を生かして,過度な拒絶を減らすために選好最適化手法を利用するPOROverを提案する。その結果, 汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく向上させることがわかった。具体的には、安全性と有用性の間で算出されたF1スコアは70.8%から88.3%に増加した。さらに、有害なプロンプトの過剰発生は過剰な拒絶を著しく減少させ、94.4%から45.2%へと減少させる。さらに、選好最適化アルゴリズムは、慎重にキュレートされた選好データを適用すると、モデルの過度な拒絶を45.2%から15.0%に効果的に低減し、同等の安全性レベルを維持することができる。私たちのコードとデータはhttps://github.com/batuhankmkaraman/POROver.comで公開されています。

関連論文リスト

Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。 i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文参考訳（メタデータ） (2025-04-23T17:58:08Z)
Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models [70.78205685001168]
大規模言語モデル(LLM)におけるモデル非学習の保護方法について研究する。私たちの目標は、未学習のモデルが対象とする知識の関連記憶をリコールすることを防止することです。 LLMアンラーニングの保護のための一般化能力を大幅に向上させる摂動に基づくPERMUを提案する。
論文参考訳（メタデータ） (2025-02-27T11:03:33Z)
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文参考訳（メタデータ） (2025-02-18T02:51:17Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文参考訳（メタデータ） (2024-12-30T13:12:27Z)
Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。 LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文参考訳（メタデータ） (2024-11-26T06:52:22Z)
Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文参考訳（メタデータ） (2024-11-04T21:27:06Z)
Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。 RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文参考訳（メタデータ） (2024-11-02T02:22:21Z)
Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文参考訳（メタデータ） (2024-09-28T22:53:27Z)
Alignment with Preference Optimization Is All You Need for LLM Safety [5.063347837245749]
安全性データセットを用いたFalcon 11Bモデルに様々なアライメント手法を適用した。我々は,LlamaGuard 3 8Bによる世界安全スコアの大幅な向上を実現し,最先端のモデルと競合する。しかし、この安全性の向上は、特に数学において、一般的な能力を低下させるコストが伴う。
論文参考訳（メタデータ） (2024-09-12T06:10:15Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions [79.1824160877979]
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
論文参考訳（メタデータ） (2023-09-14T17:23:37Z)
Safe MDP Planning by Learning Temporal Patterns of Undesirable Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文参考訳（メタデータ） (2023-04-06T14:03:24Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。