論文の概要: Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.17003v2
- Date: Tue, 19 May 2026 05:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.47457
- Title: Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training
- Title(参考訳): 学習ゼロエネルギー:効率的なRL後学習のためのオンラインデータ選択
- Authors: Peng Cui, Boyao Yang, Jun Zhu,
- Abstract要約: そこで本研究では,モデルにおけるアクティブな学習フロンティアに焦点をあてた,理論的基盤を持つ完全オンラインデータ選択フレームワークを提案する。
リプレイ付きフォワードプルーナーは、永続的に解決されたプロンプトのロールアウト生成をスキップすることで、ウォールクロック時間コストをさらに低減する。
我々の方法は1ステップあたりのトレーニングデータの40%しか保持しないが、完全なデータベースラインにマッチまたは超えている。
- 参考スコア(独自算出の注目度): 28.00739954235118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) post-training has emerged as the dominant paradigm for eliciting mathematical reasoning in Large Language Models (LLMs), yet prevailing techniques such as GRPO and DAPO distribute rollout and gradient budgets nearly uniformly across prompts, squandering compute on samples that are already mastered or remain far beyond the model's current capability. To address this fundamental inefficiency, we propose Learning-Zone Energy (LZE), a theoretically grounded, fully online data selection framework that concentrates computation on the model's active learning frontier. At its core, we define a closed-form Learning-Zone Energy Score that fuses three complementary signals, an initial-difficulty anchor, a normalized outcome-uncertainty term, and a pass-rate momentum, into a single scalar that is provably aligned with the expected magnitude of group-relative policy gradient updates. A forward pruner with replay further reduces wall-clock time cost by skipping rollout generation for persistently solved prompts while periodically checking for forgetting. Evaluated on Qwen-family models (1.5B-8B) across GSM8K, MATH and DAPO-MATH, our method retains only 40% of the training data per step yet matches or surpasses full-data baselines, with especially pronounced out-of-distribution gains on AIME25 (+45.9%) and AMC23 (+18.2%), alongside an estimated 36% reduction in training FLOPs. Our code is available at https://github.com/Stellaris167/LZE.
- Abstract(参考訳): 強化学習(RL)ポストトレーニングは、大規模言語モデル(LLMs)における数学的推論を引き出す主要なパラダイムとして現れているが、GRPOやDAPOのような一般的な技術は、ロールアウトと勾配予算をプロンプトにほぼ均一に分散させ、既にマスターされているか、あるいはモデルの現在の能力よりはるかに遠くにあるサンプルの計算をまかなえる。
この基本的非効率性に対処するために,理論上基礎を成す完全オンラインデータ選択フレームワークであるLZE(Learning-Zone Energy)を提案する。
その中核となるのは、3つの相補的な信号、初期微分アンカー、正規化結果不確かさ項、パスレートモーメントを1つのスカラーに融合する閉形式学習ゼロエネルギースコアである。
リプレイ付きフォワードプルーナーは、定期的に忘れをチェックしながら、永続的に解決されたプロンプトのロールアウト生成をスキップすることで、ウォールクロック時間コストをさらに低減する。
本手法は, GSM8K, MATH, DAPO-MATHのQwen- Familyモデル(1.5B-8B)で評価され, AIME25 (+45.9%) および AMC23 (+18.2%) において, AIME25 (+45.9%) および AMC23 (+18.2%) において, FLOPs の約36%の減少とともに, 完全データベースラインと一致または一致しないトレーニングデータの40%しか一致しない。
私たちのコードはhttps://github.com/Stellaris167/LZEで利用可能です。
関連論文リスト
- Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking [5.238545250784642]
本稿では,軌道毎のチャンクの小さな確率的に選択されたサブセットに勾配を割り当てるGRPOのドロップイン修正である確率的チャンクマスキング(PCM)を提案する。
3つのLIBEROベンチマークでは、PCMは標準GRPOの最終的な成功率と一致し、2.38倍のウォールクロック速度、4.8倍の勾配更新、60%のピークアクティベーションメモリを達成した。
論文 参考訳(メタデータ) (2026-05-15T16:33:59Z) - Mashup Learning: Faster Finetuning by Remixing Past Checkpoints [11.36221733394798]
マッシュアップ学習は、新しいタスクへのモデル適応を強化するために、事前トレーニングの実行のアウトプットを活用する単純な方法である。
トレーニングをスクラッチから行うよりも、平均下流の精度を0.5~5ポイント向上させる。
また、コンバージェンスを加速し、トレーニングステップを41-46%削減し、スクラッチの精度に合わせるために壁時計全体の時間を最大37%短縮する。
論文 参考訳(メタデータ) (2026-03-10T18:46:26Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。