論文の概要: Learning a Pessimistic Reward Model in RLHF
- arxiv url: http://arxiv.org/abs/2505.20556v1
- Date: Mon, 26 May 2025 22:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.309485
- Title: Learning a Pessimistic Reward Model in RLHF
- Title(参考訳): RLHFにおける悲観的回帰モデル学習
- Authors: Yinglun Xu, Hangoo Kang, Tarun Suresh, Yuxuan Wan, Gagandeep Singh,
- Abstract要約: 本研究は、報酬ハッキングに対して堅牢な悲観的報酬モデルを学ぶために、新しい悲観的報酬微調整法であるPET'を提案する。
従来の報酬モデリング技術は、KL正規化が報酬ハッキングの緩和に重要な役割を果たしている不完全な報酬モデルを訓練する。
PETにより微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
- 参考スコア(独自算出の注目度): 8.241055055841114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes `PET', a novel pessimistic reward fine-tuning method, to learn a pessimistic reward model robust against reward hacking in offline reinforcement learning from human feedback (RLHF). Traditional reward modeling techniques in RLHF train an imperfect reward model, on which a KL regularization plays a pivotal role in mitigating reward hacking when optimizing a policy. Such an intuition-based method still suffers from reward hacking, and the policies with large KL divergence from the dataset distribution are excluded during learning. In contrast, we show that when optimizing a policy on a pessimistic reward model fine-tuned through PET, reward hacking can be prevented without relying on any regularization. We test our methods on the standard TL;DR summarization dataset. We find that one can learn a high-quality policy on our pessimistic reward without using any regularization. Such a policy has a high KL divergence from the dataset distribution while having high performance in practice. In summary, our work shows the feasibility of learning a pessimistic reward model against reward hacking. The agent can greedily search for the policy with a high pessimistic reward without suffering from reward hacking.
- Abstract(参考訳): 本研究は,人的フィードバック(RLHF)からのオフライン強化学習において,報酬ハックに対して堅牢な悲観的報酬モデルを学ぶための,新しい悲観的報酬微調整法である「PET」を提案する。
RLHFの伝統的な報酬モデリング技術は、ポリシーを最適化する際に報酬のハッキングを緩和する上で、KL正規化が重要な役割を果たす不完全な報酬モデルを訓練する。
このような直感に基づく手法は依然として報酬のハッキングに悩まされており、データセット分布から大きなKLのばらつきを持つポリシーは学習中に除外される。
対照的に、PETで微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
本手法を標準TL;DR要約データセット上で検証する。
正規化を使わずに、悲観的な報酬に関する高品質なポリシーを学習できることが分かりました。
このようなポリシーは、実際に高いパフォーマンスを保ちながら、データセット分布から高いKLのばらつきを持つ。
要約すると、我々の研究は報酬ハッキングに対する悲観的な報酬モデルを学ぶ可能性を示している。
エージェントは、報酬ハッキングに苦しむことなく、高い悲観的な報酬でポリシーを欲しがって探すことができる。
関連論文リスト
- Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。
PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
報奨モデルの十分に低いテスト誤差は、最悪の場合の後悔を確実にすることを示す。
次に、ポリシー正則化技術を用いても、同様の問題が持続することを示す。
論文 参考訳(メタデータ) (2024-06-22T06:43:51Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。