論文の概要: TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference
- arxiv url: http://arxiv.org/abs/2509.15110v2
- Date: Mon, 29 Sep 2025 10:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.235085
- Title: TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference
- Title(参考訳): TDRM: LLM RLと推論の時間差を考慮した滑らかリワードモデル
- Authors: Dan Zhang, Min Cai, Jonathan Light, Ziniu Hu, Yisong Yue, Jie Tang,
- Abstract要約: 我々は、よりスムーズで信頼性の高い報酬モデルを学ぶ方法であるTDRMを紹介する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
- 参考スコア(独自算出の注目度): 45.96968721472664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are central to both reinforcement learning (RL) with language models and inference-time verification. However, existing reward models often lack temporal consistency, leading to ineffective policy updates and unstable RL training. We introduce TDRM, a method for learning smoother and more reliable reward models by minimizing temporal differences (TD) for training-time reinforcement learning and inference-time verification. Experiments show that TD-trained process reward models (PRMs) improve performance across Best-of-N (up to 6.6%) and tree-search (up to 23.7%) settings. When combined with Reinforcement Learning with Verifiable Rewards (RLVR), TD-trained PRMs lead to more data-efficient RL -- achieving comparable performance with just 2.5k data to what baseline methods require 50.1k data to attain -- and yield higher-quality language model policies in 8 model variants (5 series), e.g., Qwen2.5-(0.5B, 1,5B), GLM4-9B-0414, GLM-Z1-9B-0414, Qwen2.5-Math-(1.5B, 7B), and DeepSeek-R1-Distill-Qwen-(1.5B, 7B). We release all code at https://github.com/THUDM/TDRM.
- Abstract(参考訳): リワードモデルは、言語モデルと推論時間検証を備えた強化学習(RL)の中心である。
しかし、既存の報酬モデルには時間的一貫性が欠如しており、不効果的なポリシー更新と不安定なRLトレーニングにつながっている。
トレーニング時強化学習と推論時検証のための時間差(TD)を最小化することにより,よりスムーズで信頼性の高い報酬モデルを学習するTDRMを導入する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
RLVR(Reinforcement Learning with Verifiable Rewards)と組み合わせると、TD-trained PRMはデータ効率が向上し、2.5kのデータで50.1kのデータを必要とするベースラインメソッドに匹敵するパフォーマンスを達成し、8つのモデルバリエーション(5シリーズ)、e g 、Qwen2.5-(0.5B, 1,5B)、GLM4-9B-0414、GLM-Z1-9B-0414、Qwen2.5-Math-(1.5B, 7B)、DeepSeek-R1-Distill-Qwen-(1.5B, 7B)の高品質な言語モデルポリシーを得る。
すべてのコードはhttps://github.com/THUDM/TDRMでリリースします。
関連論文リスト
- SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-05-05T17:59:50Z) - Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.25416990387885]
ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文 参考訳(メタデータ) (2025-03-24T17:06:10Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。