論文の概要: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.12999v2
- Date: Mon, 16 Jun 2025 05:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:28.693
- Title: POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
- Title(参考訳): POROver: オーバジェネレーションと優先度最適化による大規模言語モデルの安全性向上とオーバリフレクション低減
- Authors: Batuhan K. Karaman, Ishmam Zabir, Alon Benhaim, Vishrav Chaudhary, Mert R. Sabuncu, Xia Song,
- Abstract要約: 汎用的なプロンプトのオーバージェネレーションは、有用性に最小限の影響しか与えず、安全性を著しく向上させる。
有害なプロンプトの過剰発現は安全性を維持しながら11.1%から57.6%に有用性を高める。
POROVerの適用により、57.6%から82.1%まで有用性が向上する一方で、同等レベルの安全性を維持している。
- 参考スコア(独自算出の注目度): 36.27759448564185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving both high safety and high usefulness simultaneously in large language models has become a critical challenge in recent years.Models often exhibit unsafe behavior or adopt an overly cautious approach leading to frequent overrefusal of benign prompts, which reduces their usefulness. A major factor underlying these behaviors is how the models are finetuned and aligned, particularly the nature and extent of the data used.In this work, we examine how overgenerating finetuning data with advanced teacher models (e.g., GPT-4o)-covering both general-purpose and toxic prompts-affects safety and usefulness in instruction-following language models.Additionally, we present POROver, an alignment strategy designed for models that are highly safe but prone to overrefusal. POROver employs preference optimization algorithms and leverages completions from an advanced teacher model to reduce overrefusals while maintaining safety.Our results show that overgenerating completions for general-purpose prompts significantly boosts safety with only a minimal impact on usefulness. Specifically, the F1 score calculated between safety and usefulness increases from 74.4% to 91.8% because of a substantial rise in safety. Moreover, overgeneration for toxic prompts raises usefulness from 11.1% to 57.6% while preserving safety. Finally, applying POROVer increases usefulness further-from 57.6% to 82.1%-while keeping safety at comparable levels. Our data and code are available at https://github.com/batuhankmkaraman/POROver.
- Abstract(参考訳): 近年, 大規模言語モデルにおいて, 高安全性と高利便性の両方を同時に達成することが重要な課題となっており, モデルはしばしば安全でない行動を示すか, 過度に慎重なアプローチを採用し, 良心的なプロンプトの過剰な拒絶を招き, それらの有用性を低下させる。
本研究は,高度な教師モデル(例えば GPT-4o)による微調整データの過剰生成が,命令追従型言語モデルにおける汎用的および有害なプロンプトの安全性と有用性にどのように影響するかを検討する。
POROverは, 優先最適化アルゴリズムを採用し, 高度な教師モデルからの完成度を利用して, 安全性を維持しながら過度な拒絶を低減し, 汎用的プロンプトの過大な生成は, 有用性に最小限の影響を伴わず, 安全性を著しく向上させることを示した。
具体的には、安全性と有用性の間で算出されたF1スコアが74.4%から91.8%に増加した。
さらに、有害なプロンプトの過剰発現は安全性を維持しながら11.1%から57.6%に有用性を高める。
最後に、POROVerを適用することで、57.6%から82.1%まで有用性が向上する一方で、同等レベルの安全性を維持している。
私たちのデータとコードはhttps://github.com/batuhankmkaraman/POROver.comで公開されています。
関連論文リスト
- Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models [70.78205685001168]
大規模言語モデル(LLM)におけるモデル非学習の保護方法について研究する。
私たちの目標は、未学習のモデルが対象とする知識の関連記憶をリコールすることを防止することです。
LLMアンラーニングの保護のための一般化能力を大幅に向上させる摂動に基づくPERMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文 参考訳(メタデータ) (2024-11-02T02:22:21Z) - Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。
有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。
安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文 参考訳(メタデータ) (2024-09-28T22:53:27Z) - Alignment with Preference Optimization Is All You Need for LLM Safety [5.063347837245749]
安全性データセットを用いたFalcon 11Bモデルに様々なアライメント手法を適用した。
我々は,LlamaGuard 3 8Bによる世界安全スコアの大幅な向上を実現し,最先端のモデルと競合する。
しかし、この安全性の向上は、特に数学において、一般的な能力を低下させるコストが伴う。
論文 参考訳(メタデータ) (2024-09-12T06:10:15Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。