論文の概要: Reinforcement Learning from Human Feedback with High-Confidence Safety Constraints
- arxiv url: http://arxiv.org/abs/2506.08266v1
- Date: Mon, 09 Jun 2025 22:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.855493
- Title: Reinforcement Learning from Human Feedback with High-Confidence Safety Constraints
- Title(参考訳): 高信頼安全性制約による人間フィードバックからの強化学習
- Authors: Yaswanth Chittepu, Blossom Metevier, Will Schwarzer, Austin Hoag, Scott Niekum, Philip S. Thomas,
- Abstract要約: 言語モデルと人間の嗜好を整合させるために,人間のフィードバックから高信頼安全な強化学習を提案する。
HC-RLHFは高い確率で安全なモデルを生成し、従来の手法と比較して無害性や有用性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 24.881874024528276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to language model alignment often treat safety as a tradeoff against helpfulness, which can lead to unacceptable responses in sensitive domains. To ensure reliable performance in such settings, we propose High-Confidence Safe Reinforcement Learning from Human Feedback (HC-RLHF), a method that provides high-confidence safety guarantees while maximizing helpfulness. Similar to previous methods, HC-RLHF explicitly decouples human preferences into helpfulness and harmlessness (safety), which are learned by training a reward model and a cost model, respectively. It then employs a two-step process to find safe solutions. In the first step, it optimizes the reward function under an intentionally pessimistic version of the cost constraint. In the second step, the trained model undergoes a safety test to verify whether its performance stays within an upper-confidence bound of the actual cost constraint. We provide a theoretical analysis of HC-RLHF, including proof that it will not return an unsafe solution with a probability greater than a user-specified threshold. For our empirical analysis, we apply HC-RLHF to align three different language models (Qwen2-1.5B, Qwen2.5-3B, and LLaMa3.2-3B) with human preferences. Our results demonstrate that HC-RLHF produces safe models with high probability and can improve harmlessness and helpfulness compared to previous methods.
- Abstract(参考訳): 既存の言語モデルのアライメントに対するアプローチは、安全を有用性に対するトレードオフとして扱うことが多いため、センシティブなドメインでは受け入れられない応答につながる可能性がある。
このような環境下での信頼性の高い性能を確保するため,人間フィードバックからの高信頼安全強化学習(HC-RLHF)を提案する。
従来の手法と同様に、HC-RLHFは、人選好を、それぞれ報酬モデルとコストモデルを訓練することによって学習した、有益性と無害性(安全)に明確に分離する。
次に、安全な解決策を見つけるために2段階のプロセスを使う。
最初のステップでは、コスト制約の意図的に悲観的なバージョンの下で報酬関数を最適化する。
第2のステップでは、トレーニングされたモデルが安全性テストを実施し、そのパフォーマンスが実際のコスト制約の高信頼境界内にあるかどうかを確認する。
HC-RLHFの理論的解析を行い、ユーザ特定しきい値よりも高い確率で安全でない解を返さないことを示す。
実験分析では、HC-RLHFを用いて3つの異なる言語モデル(Qwen2-1.5B、Qwen2.5-3B、LLaMa3.2-3B)を人間の好みに合わせる。
その結果,HC-RLHFは高い確率で安全なモデルを生成することができ,従来の手法と比較して無害性と有用性を向上させることができることがわかった。
関連論文リスト
- Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。