論文の概要: SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2506.01096v1
- Date: Sun, 01 Jun 2025 17:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.929613
- Title: SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning
- Title(参考訳): SuperRL: 言語モデル推論の強化を目的とした強化学習
- Authors: Yihao Liu, Shuocheng Li, Lang Cao, Yuhang Xie, Mengyu Zhou, Haoyu Dong, Xiaojun Ma, Shi Han, Dongmei Zhang,
- Abstract要約: SuperRLは、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークである。
SuperRLは、スパース報酬の下でサンプル効率、一般化、堅牢性を向上させることで、標準強化学習を一貫して上回る。
- 参考スコア(独自算出の注目度): 42.54530036364341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for complex reasoning tasks where high-quality offline data such as expert-annotated solutions and distilled reasoning traces are often available. However, in environments with sparse rewards, reinforcement learning struggles to sample successful trajectories, leading to inefficient learning. At the same time, these offline trajectories that represent correct reasoning paths are not utilized by standard on-policy reinforcement learning methods. To address this limitation, we propose SuperRL, a unified training framework that adaptively incorporates offline supervision into reinforcement learning. SuperRL introduces an Adaptive Switch to detect sparse reward conditions and activates a Hybrid Actor when necessary. The Hybrid Actor integrates policy gradient and supervised learning objectives at the loss level, enabling the model to benefit from accurate offline reasoning signals while maintaining the exploratory capacity of reinforcement learning. Experiments on a range of reasoning benchmarks show that SuperRL consistently outperforms standard reinforcement learning by improving sample efficiency, generalization, and robustness under sparse rewards.
- Abstract(参考訳): 大規模な言語モデルは、エキスパートアノテートされたソリューションや蒸留された推論トレースのような高品質なオフラインデータがしばしば利用できるような複雑な推論タスクにますます使われています。
しかし、粗末な報奨のある環境では、強化学習は軌道のサンプリングに苦慮し、非効率な学習につながる。
同時に、正しい推論経路を表すこれらのオフライン軌跡は、標準的なオンライン強化学習法では利用されない。
この制限に対処するために、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークであるSuperRLを提案する。
SuperRLは、スパース報酬条件を検出するAdaptive Switchを導入し、必要に応じてハイブリッドアクターを起動する。
ハイブリッド・アクターは、政策勾配と損失レベルでの学習目標を監督し、強化学習の探索能力を維持しつつ、正確なオフライン推論信号の恩恵を受けることができる。
様々な推論ベンチマークの実験により、SuperRLはサンプル効率、一般化、頑健さをスパース報酬下で改善することで、標準強化学習を一貫して上回っていることが示された。
関連論文リスト
- Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies [12.599164162404994]
本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。
提案するLLM拡張RLパラダイムの実現可能性を評価するため,バス路線数,停留所数,旅客需要数に異なる広範なバス保持制御シナリオに適用した。
論文 参考訳(メタデータ) (2024-10-14T07:10:16Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。