論文の概要: JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
- arxiv url: http://arxiv.org/abs/2512.16649v1
- Date: Thu, 18 Dec 2025 15:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.120753
- Title: JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
- Title(参考訳): JustRL: シンプルなRLレシピによる1.5B LLMのスケーリング
- Authors: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu,
- Abstract要約: 単段トレーニングは、2つの1.5B推論モデルで最先端のパフォーマンスを達成する。
トレーニングは、通常介入を動機づける崩壊や台地を伴わない4000以上のステップに対して、滑らかで単調な改善を示す。
- 参考スコア(独自算出の注目度): 45.42398283391072
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: \textbf{Is this complexity necessary?} We present \textbf{JustRL}, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2$\times$ less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.
- Abstract(参考訳): 大規模言語モデルの強化学習の最近の進歩は、多段階トレーニングパイプライン、動的ハイパーパラメータスケジュール、カリキュラム学習戦略など、複雑さの増大に集約されている。
この複雑さは必要か?
ここでは,2つの1.5B推論モデル(9つの数学ベンチマークの平均精度54.9\%と64.3\%)に対して,2$\times$少ない計算量を用いて,固定ハイパーパラメータを用いた単一ステージトレーニングを用いた最小限のアプローチを提案する。
同じハイパーパラメータは、チューニングなしで両方のモデル間で移動し、トレーニングは、通常介入を動機づける崩壊や台地なしで4000以上のステップで滑らかで単調な改善を示す。
批判的に言えば、明示的な長さのペナルティや堅牢な検証器のような「標準的なトリック」を追加することは、探索を崩壊させることで性能を低下させる可能性がある。
これらの結果は、安定でスケールアップされたベースラインで消失する問題を解くために、フィールドが複雑さを増すことを示唆している。
私たちは、コミュニティのためのシンプルで検証されたベースラインを確立するために、モデルとコードをリリースします。
関連論文リスト
- LLMs Encode How Difficult Problems Are [4.990590622073335]
大規模言語モデルが人間の判断に沿う方法で問題難易度を符号化するかどうかを検討する。
我々は60のモデルで層とトークンの位置の線形プローブを訓練し、Easy2HardBenchの数学的および符号化部分集合を評価した。
論文 参考訳(メタデータ) (2025-10-20T22:48:23Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。