論文の概要: Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11555v1
- Date: Mon, 17 Feb 2025 08:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:57.378584
- Title: Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models
- Title(参考訳): 等価RLHF:大規模言語モデルにおけるヘルパーフルネス-セーフティトレードオフのバランス化を目指して
- Authors: Yingshui Tan, Yilei Jiang, Yanshi Li, Jiaheng Liu, Xingyuan Bu, Wenbo Su, Xiangyu Yue, Xiaoyong Zhu, Bo Zheng,
- Abstract要約: 人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。
微調整プロセスを通して安全性を維持することは、依然として大きな課題である。
トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.168387024091082
- License:
- Abstract: Fine-tuning large language models (LLMs) based on human preferences, commonly achieved through reinforcement learning from human feedback (RLHF), has been effective in improving their performance. However, maintaining LLM safety throughout the fine-tuning process remains a significant challenge, as resolving conflicts between safety and helpfulness can be non-trivial. Typically, the safety alignment of LLM is trained on data with safety-related categories. However, our experiments find that naively increasing the scale of safety training data usually leads the LLMs to an ``overly safe'' state rather than a ``truly safe'' state, boosting the refusal rate through extensive safety-aligned data without genuinely understanding the requirements for safe responses. Such an approach can inadvertently diminish the models' helpfulness. To understand the phenomenon, we first investigate the role of safety data by categorizing them into three different groups, and observe that each group behaves differently as training data scales up. To boost the balance between safety and helpfulness, we propose an Equilibrate RLHF framework including a Fine-grained Data-centric (FDC) approach that achieves better safety alignment even with fewer training data, and an Adaptive Message-wise Alignment (AMA) approach, which selectively highlight the key segments through a gradient masking strategy. Extensive experimental results demonstrate that our approach significantly enhances the safety alignment of LLMs while balancing safety and helpfulness.
- Abstract(参考訳): 人間の嗜好に基づく微調整型大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習によって一般的に達成され、その性能向上に有効である。
しかし, 微調整プロセスを通じてLLMの安全性を維持することは重要な課題であり, 安全性と利便性の対立を解決することは容易ではない。
通常、LLMの安全性アライメントは安全関連カテゴリのデータに基づいて訓練される。
しかし, 安全性トレーニングデータの規模を過度に増大させると, 通常, LLM は ‘Truly safe' 状態ではなく ‘overly safe' 状態に陥り, 安全な応答の要求を真に理解することなく, 広範囲な安全対応データを通じて拒絶率を高めることが確認された。
このようなアプローチは、必然的にモデルの利便性を低下させる可能性がある。
この現象を理解するために、まず3つの異なるグループに分類して安全データの役割を調査し、トレーニングデータのスケールアップに伴って各グループが異なる行動をとることを観察する。
安全性と利便性のバランスを高めるために,トレーニングデータが少ない場合でも安全性を向上するFDCアプローチと,グラデーションマスキング戦略によってキーセグメントを選択的に強調するAMAアプローチを含む平衡RLHFフレームワークを提案する。
本研究は, 安全性と利便性のバランスを保ちながら, LLMの安全アライメントを著しく向上させることを実証した。
関連論文リスト
- How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応)
安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文 参考訳(メタデータ) (2024-10-10T03:12:03Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。