論文の概要: Reinforcement Learning for Reasoning in Large Language Models with One Training Example
- arxiv url: http://arxiv.org/abs/2504.20571v1
- Date: Tue, 29 Apr 2025 09:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.824473
- Title: Reinforcement Learning for Reasoning in Large Language Models with One Training Example
- Title(参考訳): 一つの学習例を用いた大規模言語モデルの推論のための強化学習
- Authors: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen,
- Abstract要約: 1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
- 参考スコア(独自算出の注目度): 129.11571295790807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the "grokking" phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR
- Abstract(参考訳): 本研究では,1つのトレーニング例(1ショットRLVR)を用いた強化学習が,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
RLVRをベースモデル Qwen2.5-Math-1.5B に適用すると、MATH500 のモデル性能を 36.0% から 73.6% に高め、一般的な6つの数学的推論ベンチマークの平均性能を 17.6% から 35.7% に改善する単一の例が特定される。
この結果は、前述の例を含む1.2k DeepScaleRサブセット(MATH500: 73.6%、平均: 35.9%)で得られたパフォーマンスと一致する。
同様の改善は、様々なモデル(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、RLアルゴリズム(GRPOとPPO)、数学の異なる例(多くは単一のトレーニング例でMATH500を30%以上改善する)で見られる。
また、1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増加、トレーニング精度が飽和した後でも持続的なテスト性能の向上などを挙げる。
さらに,1ショットRLVRの有効性は,主に政策勾配損失から生じ,それと「農業」現象とを区別することを検証する。
また、1ショットRLVRトレーニングにおいて、探索(例えば、適切な係数でエントロピー損失を加える)を促進する重要な役割を示す。
また,MATH500におけるQwen2.5-Math-1.5Bの性能を27.4%向上させることができた。
これらの発見は、RLVRデータ効率に関する今後の研究を刺激し、最近の進歩とRLVRの基盤となるメカニズムの再検討を促進する。
私たちのコード、モデル、データはhttps://github.com/ypwang61/One-Shot-RLVRでオープンソースです。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
図形ユーザインタフェース(GUI)の動作予測タスクにおいて,ルールベースの強化学習がMLLM(Multimodal Large Language Model)の推論能力を高める方法について検討する最初のフレームワークであるUI-R1を提案する。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z) - How to Train Your Energy-Based Model for Regression [107.54411649704194]
近年,コンピュータビジョンにおいてエネルギーベースモデル (EBM) が普及している。
近年の作業では、回帰タスクにもESMを適用し、オブジェクト検出と視覚的トラッキングにおける最先端のパフォーマンスを実現している。
最高のレグレッションパフォーマンスのためにEBMをどのようにトレーニングするかは、十分に研究された問題ではありません。
論文 参考訳(メタデータ) (2020-05-04T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。