Fugu-MT 論文翻訳(概要): Learning a Pessimistic Reward Model in RLHF

論文の概要: Learning a Pessimistic Reward Model in RLHF

arxiv url: http://arxiv.org/abs/2505.20556v1
Date: Mon, 26 May 2025 22:34:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.309485
Title: Learning a Pessimistic Reward Model in RLHF
Title（参考訳）: RLHFにおける悲観的回帰モデル学習
Authors: Yinglun Xu, Hangoo Kang, Tarun Suresh, Yuxuan Wan, Gagandeep Singh,
Abstract要約: 本研究は、報酬ハッキングに対して堅牢な悲観的報酬モデルを学ぶために、新しい悲観的報酬微調整法であるPET'を提案する。従来の報酬モデリング技術は、KL正規化が報酬ハッキングの緩和に重要な役割を果たしている不完全な報酬モデルを訓練する。 PETにより微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
参考スコア（独自算出の注目度）: 8.241055055841114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work proposes `PET', a novel pessimistic reward fine-tuning method, to learn a pessimistic reward model robust against reward hacking in offline reinforcement learning from human feedback (RLHF). Traditional reward modeling techniques in RLHF train an imperfect reward model, on which a KL regularization plays a pivotal role in mitigating reward hacking when optimizing a policy. Such an intuition-based method still suffers from reward hacking, and the policies with large KL divergence from the dataset distribution are excluded during learning. In contrast, we show that when optimizing a policy on a pessimistic reward model fine-tuned through PET, reward hacking can be prevented without relying on any regularization. We test our methods on the standard TL;DR summarization dataset. We find that one can learn a high-quality policy on our pessimistic reward without using any regularization. Such a policy has a high KL divergence from the dataset distribution while having high performance in practice. In summary, our work shows the feasibility of learning a pessimistic reward model against reward hacking. The agent can greedily search for the policy with a high pessimistic reward without suffering from reward hacking.
Abstract（参考訳）: 本研究は,人的フィードバック(RLHF)からのオフライン強化学習において,報酬ハックに対して堅牢な悲観的報酬モデルを学ぶための,新しい悲観的報酬微調整法である「PET」を提案する。 RLHFの伝統的な報酬モデリング技術は、ポリシーを最適化する際に報酬のハッキングを緩和する上で、KL正規化が重要な役割を果たす不完全な報酬モデルを訓練する。このような直感に基づく手法は依然として報酬のハッキングに悩まされており、データセット分布から大きなKLのばらつきを持つポリシーは学習中に除外される。対照的に、PETで微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。本手法を標準TL;DR要約データセット上で検証する。正規化を使わずに、悲観的な報酬に関する高品質なポリシーを学習できることが分かりました。このようなポリシーは、実際に高いパフォーマンスを保ちながら、データセット分布から高いKLのばらつきを持つ。要約すると、我々の研究は報酬ハッキングに対する悲観的な報酬モデルを学ぶ可能性を示している。エージェントは、報酬ハッキングに苦しむことなく、高い悲観的な報酬でポリシーを欲しがって探すことができる。

関連論文リスト

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文参考訳（メタデータ） (2025-08-07T17:53:56Z)
Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。 PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文参考訳（メタデータ） (2025-07-01T09:43:57Z)
Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。 HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文参考訳（メタデータ） (2025-06-24T02:05:25Z)
Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T15:38:25Z)
Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。 PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文参考訳（メタデータ） (2025-03-28T14:39:52Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification [1.0582505915332336]
報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
論文参考訳（メタデータ） (2024-07-19T17:57:59Z)
The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
報奨モデルの十分に低いテスト誤差は、最悪の場合の後悔を確実にすることを示す。次に、ポリシー正則化技術を用いても、同様の問題が持続することを示す。
論文参考訳（メタデータ） (2024-06-22T06:43:51Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文参考訳（メタデータ） (2024-03-05T18:22:15Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:04Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。