論文の概要: Expanding RL with Verifiable Rewards Across Diverse Domains
- arxiv url: http://arxiv.org/abs/2503.23829v1
- Date: Mon, 31 Mar 2025 08:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:41.459536
- Title: Expanding RL with Verifiable Rewards Across Diverse Domains
- Title(参考訳): 逆数領域の検証可能な逆数拡張RL
- Authors: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu,
- Abstract要約: 検証可能な報酬を伴う強化学習(RLVR)は、数学的推論やコーディングタスクにおいて有望な結果を示している。
我々は、医学、化学、心理学、経済学など、より多様な分野へのRLVRの拡張について研究する。
- 参考スコア(独自算出の注目度): 92.36624674516553
- License:
- Abstract: Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR's robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.
- Abstract(参考訳): Reinforcement Learning (RL) with verible rewards (RLVR) has shown promising results in mathematical reasoning and coding task where well-structured reference answer are available。
しかし、より広い領域への適用性はまだ未定である。
本研究では,医学,化学,心理学,経済学など,より多様な分野へのRLVRの展開について検討する。
客観的参照応答が存在する場合、異なる大言語モデル(LLM)をまたいだ二項判断において高い一致性が観察され、ドメイン固有の報酬モデルを訓練するための大規模アノテーションの必要性に疑問が呈される。
モデルに基づくソフトスコアリングをRLVRに組み込んで,その柔軟性を向上させる。
提案実験により, 蒸留生成報酬モデルが有効なクロスドメイン検証として機能し, ドメイン固有のアノテーションを必要とせずに, RLに対して信頼性の高い報酬信号を提供できることを示した。
報酬モデルに対して様々なRLアルゴリズムを用いてベース7Bモデルを微調整することにより、Qwen2.5-72B-InstructやDeepSeek-R1-Distill-Qwen-32Bといった最先端のオープンソース・アライメント LLM を、自由形式の応答設定の領域間で大きなマージンで上回るポリシーを得る。
これはまた、RLVRの堅牢性とスケーラビリティを強化し、ノイズや弱いラベルを持つ現実世界のアプリケーションの可能性を強調している。
関連論文リスト
- RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Reinforcement Learning with a Disentangled Universal Value Function for
Item Recommendation [35.79993074465577]
我々は、goalrecと呼ばれる不連続な普遍値関数を持つモデルベース強化学習フレームワークを開発した。
本稿では,一連のシミュレーションと実応用の3つの実践的課題の観点から,従来のアプローチよりもGoalRecの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-04-07T08:13:32Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。