論文の概要: Real-Time Aligned Reward Model beyond Semantics
- arxiv url: http://arxiv.org/abs/2601.22664v1
- Date: Fri, 30 Jan 2026 07:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.298819
- Title: Real-Time Aligned Reward Model beyond Semantics
- Title(参考訳): 実時間アラインド・リワードモデル
- Authors: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang,
- Abstract要約: 本稿では,R2M(Real-Time Aligned Reward Model)という軽量なRLHFフレームワークを紹介する。
R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。
この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
- 参考スコア(独自算出の注目度): 49.717236911878224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a pivotal technique for aligning large language models (LLMs) with human preferences, yet it is susceptible to reward overoptimization, in which policy models overfit to the reward model, exploit spurious reward patterns instead of faithfully capturing human intent. Prior mitigations primarily relies on surface semantic information and fails to efficiently address the misalignment between the reward model (RM) and the policy model caused by continuous policy distribution shifts. This inevitably leads to an increasing reward discrepancy, exacerbating reward overoptimization. To address these limitations, we introduce R2M (Real-Time Aligned Reward Model), a novel lightweight RLHF framework. R2M goes beyond vanilla reward models that solely depend on the semantic representations of a pretrained LLM. Instead, it leverages the evolving hidden states of the policy (namely policy feedback) to align with the real-time distribution shift of the policy during the RL process. This work points to a promising new direction for improving the performance of reward models through real-time utilization of feedback from policy models.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なテクニックであるが、報酬モデルに過度に適合する政策モデルにおいて、人間の意図を忠実に捉えるのではなく、刺激的な報酬パターンを利用する場合、過度に最適化される可能性がある。
従来の緩和は、主に表面意味情報に依存しており、報酬モデル(RM)と継続的な政策分散シフトによって引き起こされる政策モデルとのミスアライメントに効果的に対処できない。
これは必然的に報酬の相違を増大させ、報酬の過度な最適化を悪化させる。
これらの制約に対処するため、新しい軽量なRLHFフレームワークであるR2M(Real-Time Aligned Reward Model)を導入する。
R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。
代わりに、ポリシーの進化した隠れた状態(すなわちポリシーフィードバック)を活用して、RLプロセス中のポリシーのリアルタイムな分散シフトと整合する。
この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models [20.30272221358623]
トレーニングを通じて報酬モデルのプロンプトを動的に洗練するメタリワードモデルを統合するフレームワークを導入する。
MPOでは、メタリワードモデルは、進化するトレーニングコンテキストを監視し、高いアライメントを維持するための報酬モデルのプロンプトを継続的に調整する。
広範囲に手作りの報酬プロンプトによって導かれるモデルと同等以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2025-04-28T18:02:35Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。