論文の概要: Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
- arxiv url: http://arxiv.org/abs/2506.14965v1
- Date: Tue, 17 Jun 2025 20:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.479794
- Title: Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
- Title(参考訳): 横断的視点から見たLLM推論の強化学習の再検討
- Authors: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
- 参考スコア(独自算出の注目度): 82.24301452333577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)推論を改善するための有望なアプローチとして現れてきたが、ほとんどのオープンな取り組みは、数学とコードに限定して焦点を絞っており、一般の推論への適用性に対する我々の理解を制限している。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
筆者らは,ルール,コード,科学,論理,シミュレーション,タブラルという6つの推論領域にまたがる92Kの検証可能な実例をキュレートしたRL推論コーパスであるGuruを紹介し,RLトレーニングの信頼性と有効性を確保するために,ドメイン固有の報酬設計,重複,フィルタリングを通じて構築した。
Guruに基づいて,LLM推論のためのRLの確立された知見を体系的に再検討し,領域間の有意な差異を観察した。
例えば、以前の研究では、RLはトレーニング済みのモデルから既存の知識を主に引き出すが、我々の結果は、事前トレーニング中によく見られるドメイン(Math、Code、Science)はクロスドメインのRLトレーニングの恩恵を受けやすく、一方、事前トレーニングの露出に制限のあるドメイン(Logic、Simulation、Tabular)は、有意義なパフォーマンス向上を達成するためにドメイン内のトレーニングを必要としており、RLが真のスキル獲得を促進する可能性が示唆されている。
最後に、Gru-7BとGuru-32Bを紹介する。これは、公開データでトレーニングされたオープンモデルRLのうち、最先端のパフォーマンスを達成する2つのモデルで、6つの推論領域にわたる17タスク評価スイートにおいて、最高のベースラインを7.9%と6.7%で上回っている。
また、我々のモデルは、ベースモデルのPass@k性能を効果的に改善し、特に事前学習データに現れる可能性が低い複雑なタスクにおいて、その有効性を示す。
汎用推論を容易にするために、データ、モデル、トレーニング、評価コードをリリースします。
関連論文リスト
- Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。