論文の概要: Policy-labeled Preference Learning: Is Preference Enough for RLHF?
- arxiv url: http://arxiv.org/abs/2505.06273v1
- Date: Tue, 06 May 2025 15:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.72855
- Title: Policy-labeled Preference Learning: Is Preference Enough for RLHF?
- Title(参考訳): 政策に順応した嗜好学習:RLHFは好ましくないか?
- Authors: Taehyun Cho, Seokhun Ju, Seungyub Han, Dohyeong Kim, Kyungjae Lee, Jungwoo Lee,
- Abstract要約: 本研究では,行動政策情報を反映した,後悔を伴う人間の嗜好をモデル化することで,ミスマッチの可能性を解消するための政策ラベル付き嗜好学習(PPL)を提案する。
高次元連続制御タスクの実験は、PPLがオフラインのRLHF性能を大幅に改善し、オンライン環境での有効性を示した。
- 参考スコア(独自算出の注目度): 8.378137704007038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To design rewards that align with human goals, Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent technique for learning reward functions from human preferences and optimizing policies via reinforcement learning algorithms. However, existing RLHF methods often misinterpret trajectories as being generated by an optimal policy, causing inaccurate likelihood estimation and suboptimal learning. Inspired by Direct Preference Optimization framework which directly learns optimal policy without explicit reward, we propose policy-labeled preference learning (PPL), to resolve likelihood mismatch issues by modeling human preferences with regret, which reflects behavior policy information. We also provide a contrastive KL regularization, derived from regret-based principles, to enhance RLHF in sequential decision making. Experiments in high-dimensional continuous control tasks demonstrate PPL's significant improvements in offline RLHF performance and its effectiveness in online settings.
- Abstract(参考訳): 人間の目標に沿った報酬を設計するために、人間からの好意から報酬関数を学習し、強化学習アルゴリズムを介してポリシーを最適化する際、RLHF(Reinforcement Learning from Human Feedback)が顕著な技術として登場した。
しかし、既存のRLHF法は、しばしば最適ポリシーによって生成される軌跡を誤解釈し、不正確な推定と準最適学習を引き起こす。
明確な報酬を伴わずに最適な政策を直接学習するダイレクト・プライス・オプティマイゼーション・フレームワークにインスパイアされた我々は、行動ポリシー情報を反映した人間の嗜好を再現し、不適切なミスマッチを解消する政策ラベル・プライス・ラーニング(PPL)を提案する。
また、逐次意思決定においてRLHFを強化するために、後悔に基づく原則から派生した対照的なKL正規化も提供する。
高次元連続制御タスクの実験は、PPLがオフラインのRLHF性能を大幅に改善し、オンライン環境での有効性を示した。
関連論文リスト
- PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - COPR: Continual Learning Human Preference through Optimal Policy Regularization [32.54658750353585]
我々はCOPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果、COPRは強力な継続的学習(CL)ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。