論文の概要: RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
- arxiv url: http://arxiv.org/abs/2511.07317v1
- Date: Mon, 10 Nov 2025 17:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.390067
- Title: RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
- Title(参考訳): RLVE:適応的検証可能な言語モデルのための強化学習のスケールアップ
- Authors: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi,
- Abstract要約: 適応検証環境(RLVE)を用いた強化学習の導入
RLVEは、各検証可能な環境が、トレーニングが進むにつれて、問題の難易度分布をポリシーモデルの能力に動的に適応させることを可能にする。
環境スケーリング,すなわち,トレーニング環境の収集を拡大することで,推論能力が継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 111.87296453908199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
- Abstract(参考訳): 適応検証環境(RLVE)を用いた強化学習(RL)を導入し,問題を手続き的に生成し,アルゴリズムで検証可能な報奨を提供する。
RLVEは、各検証可能な環境が、トレーニングが進むにつれて、問題の難易度分布をポリシーモデルの能力に動的に適応させることを可能にする。
対照的に、静的なデータ分散は、問題が容易すぎるか、あるいはポリシーに難しすぎる場合、学習信号の消滅につながることが多い。
RLVEを実装するためにRLVE-Gymを開発した。RLVE-Gymは400の検証可能な大規模スイートで、手動の環境工学によって慎重に開発されている。
RLVE-Gymを用いて、環境スケーリング、すなわち、トレーニング環境の収集を拡大し、一貫して一般化可能な推論能力を改善することを示す。
RLVEはRLVE-Gymの400の環境にまたがる共同トレーニングを行い、6つの推論ベンチマークで3.37%の平均的な改善を達成している。
対照的に、このLMのオリジナルのRLトレーニングを継続すると、3倍以上の計算を使用するにもかかわらず、平均的な絶対利得は0.49%しか得られない。
コードを公開しています。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning [23.795932850992816]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。
144種類の多種多様な推論・計画タスクにまたがる汎用コードインタープリタのトレーニングは,タスクの不均一性や有効サンプルの不足による重大な課題を呈している。
最終モデルであるR1-CI-14Bは、37のテストタスクの平均精度を44.1%から72.4%に改善し、テキストのみのGPT-4o (58.6%) と GPT-4o with Code Interpreter (70.9%) を上回りました。
論文 参考訳(メタデータ) (2025-05-27T18:47:33Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution [46.5893728376551]
本稿では,実世界のソフトウェア工学において,RLに基づく大規模言語モデル(LLM)を拡張するための最初のアプローチであるSWE-RLを紹介する。
Llama3-SWE-RL-70BはSWE-bench Verifiedの41.0%の解決率を達成した。
驚いたことに、Llama3-SWE-RLはソフトウェア進化データにのみ依存してRLを実行しているにもかかわらず、一般的な推論スキルを持って登場した。
論文 参考訳(メタデータ) (2025-02-25T18:45:04Z) - RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
Combinatorial Optimization(CO)は、ロジスティクスやスケジューリング、ハードウェア設計、リソース割り当てなど、いくつかの現実世界のアプリケーションに基本である。
深層強化学習は、CO問題を解決し、ドメインの専門知識への依存を減らし、計算効率を向上する上で大きなメリットを示している。
RL4COは27のCO問題環境と23の最先端ベースラインの詳細なライブラリカバレッジを備えた統一ベンチマークである。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。