論文の概要: TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference
- arxiv url: http://arxiv.org/abs/2509.15110v1
- Date: Thu, 18 Sep 2025 16:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.323839
- Title: TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference
- Title(参考訳): TDRM: LLM RLと推論の時間差を考慮した滑らかリワードモデル
- Authors: Dan Zhang, Min Cai, Jonathan Li, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang,
- Abstract要約: 我々は、よりスムーズで信頼性の高い報酬モデルを学ぶ方法であるTDRMを紹介する。
この時間差正規化(TD)はスムーズな報酬を生み出し、長期的目標との整合性を改善する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
- 参考スコア(独自算出の注目度): 71.6148778772994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are central to both reinforcement learning (RL) with language models and inference-time verification. However, existing reward models often lack temporal consistency, leading to ineffective policy updates and unstable RL training. We introduce TDRM, a method for learning smoother and more reliable reward models by minimizing temporal differences during training. This temporal-difference (TD) regularization produces smooth rewards and improves alignment with long-term objectives. Incorporating TDRM into the actor-critic style online RL loop yields consistent empirical gains. It is worth noting that TDRM is a supplement to verifiable reward methods, and both can be used in series. Experiments show that TD-trained process reward models (PRMs) improve performance across Best-of-N (up to 6.6%) and tree-search (up to 23.7%) settings. When combined with Reinforcement Learning with Verifiable Rewards (RLVR), TD-trained PRMs lead to more data-efficient RL -- achieving comparable performance with just 2.5k data to what baseline methods require 50.1k data to attain -- and yield higher-quality language model policies on 8 model variants (5 series), e.g., Qwen2.5-(0.5B, 1,5B), GLM4-9B-0414, GLM-Z1-9B-0414, Qwen2.5-Math-(1.5B, 7B), and DeepSeek-R1-Distill-Qwen-(1.5B, 7B). We release all code at https://github.com/THUDM/TDRM.
- Abstract(参考訳): リワードモデルは、言語モデルと推論時間検証を備えた強化学習(RL)の中心である。
しかし、既存の報酬モデルには時間的一貫性が欠如しており、不効果的なポリシー更新と不安定なRLトレーニングにつながっている。
トレーニング中の時間差を最小限に抑えて,よりスムーズで信頼性の高い報酬モデルを学習するTDRMを導入する。
この時間差正規化(TD)はスムーズな報酬を生み出し、長期的目標との整合性を改善する。
TDRMをアクター批判スタイルのオンラインRLループに組み込むと、一貫した経験的利益が得られる。
なお、TDRMは検証可能な報酬方法の補足であり、どちらもシリーズで使用できる。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
RLVR(Reinforcement Learning with Verifiable Rewards)と組み合わせると、TD-trained PRMsはデータ効率が向上し、2.5kのデータで50.1kのデータを必要とするベースラインメソッドに匹敵するパフォーマンスを実現し、8モデルの変種(5シリーズ)、e g 、Qwen2.5-(0.5B, 1,5B)、GLM4-9B-0414、GLM-Z1-9B-0414、Qwen2.5-Math-(1.5B, 7B)、DeepSeek-R1-Distill-Qwen-(1.5B, 7B)の高品質な言語モデルポリシーを得る。
すべてのコードはhttps://github.com/THUDM/TDRMでリリースします。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-05-05T17:59:50Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。