論文の概要: Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization
- arxiv url: http://arxiv.org/abs/2410.19933v1
- Date: Fri, 25 Oct 2024 19:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:52.501479
- Title: Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization
- Title(参考訳): 厳格化政策最適化による人的フィードバックによる強化学習の安全性向上
- Authors: Xiyue Peng, Hengquan Guo, Jiawei Zhang, Dongqing Zou, Ziyu Shao, Honghao Wei, Xin Liu,
- Abstract要約: 我々は、平均的な安全制約をより厳密な(即時)安全制約に置き換える、textbfRectified Policy Optimization (RePO)を提案する。
RePOの中核は、すべてのプロンプトの厳格な安全違反を罰する修正されたポリシー勾配によって駆動されるポリシー更新メカニズムである。
我々のAlpaca-7B実験は,RePOが安全アライメントを改善し,基準法に比べて安全性の干渉を低減することを実証した。
- 参考スコア(独自算出の注目度): 16.35399722653875
- License:
- Abstract: Balancing helpfulness and safety (harmlessness) is a critical challenge in aligning large language models (LLMs). Current approaches often decouple these two objectives, training separate preference models for helpfulness and safety, while framing safety as a constraint within a constrained Markov Decision Process (CMDP) framework. However, these methods can lead to ``safety interference'', where average-based safety constraints compromise the safety of some prompts in favor of others. To address this issue, we propose \textbf{Rectified Policy Optimization (RePO)}, which replaces the average safety constraint with stricter (per prompt) safety constraints. At the core of RePO is a policy update mechanism driven by rectified policy gradients, which penalizes the strict safety violation of every prompt, thereby enhancing safety across nearly all prompts. Our experiments on Alpaca-7B demonstrate that RePO improves the safety alignment and reduces the safety interference compared to baseline methods. Code is available at https://github.com/pxyWaterMoon/RePO.
- Abstract(参考訳): 有用性と安全性(無害性)のバランスをとることは、大きな言語モデル(LLM)を調整する上で重要な課題である。
現在のアプローチはしばしばこれらの2つの目標を分離し、助け合いと安全のための選好モデルを個別に訓練する一方で、制約付きマルコフ決定プロセス(CMDP)フレームワーク内の制約として安全性をフレーミングする。
しかし、これらの手法は、平均的な安全制約が他のプロンプトの安全性を損なう「安全干渉」につながる可能性がある。
この問題に対処するために、平均的な安全制約をより厳密な(即時)安全制約に置き換える、rePO(textbf{Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
我々のAlpaca-7B実験は,RePOが安全アライメントを改善し,基準法に比べて安全性の干渉を低減することを実証した。
コードはhttps://github.com/pxyWaterMoon/RePOで入手できる。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Policy Improvement in Constrained Markov Decision Processes [10.518340300810504]
本稿では,形式的要件の集合からの報酬形成と安全なポリシー更新という2つの課題を解くことで,合成問題の解決法を提案する。
前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬生成手法を提案する。
後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-10-20T13:29:32Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。