論文の概要: DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training
- arxiv url: http://arxiv.org/abs/2504.09710v1
- Date: Sun, 13 Apr 2025 20:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:00.970425
- Title: DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training
- Title(参考訳): DUMP: RL-based LLMポストトレーニングのための分布レベル自動学習
- Authors: Zhenting Wang, Guofeng Cui, Kun Wan, Wentian Zhao,
- Abstract要約: 本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 15.74527731339671
- License:
- Abstract: Recent advances in reinforcement learning (RL)-based post-training have led to notable improvements in large language models (LLMs), particularly in enhancing their reasoning capabilities to handle complex tasks. However, most existing methods treat the training data as a unified whole, overlooking the fact that modern LLM training often involves a mixture of data from diverse distributions-varying in both source and difficulty. This heterogeneity introduces a key challenge: how to adaptively schedule training across distributions to optimize learning efficiency. In this paper, we present a principled curriculum learning framework grounded in the notion of distribution-level learnability. Our core insight is that the magnitude of policy advantages reflects how much a model can still benefit from further training on a given distribution. Based on this, we propose a distribution-level curriculum learning framework for RL-based LLM post-training, which leverages the Upper Confidence Bound (UCB) principle to dynamically adjust sampling probabilities for different distrubutions. This approach prioritizes distributions with either high average advantage (exploitation) or low sample count (exploration), yielding an adaptive and theoretically grounded training schedule. We instantiate our curriculum learning framework with GRPO as the underlying RL algorithm and demonstrate its effectiveness on logic reasoning datasets with multiple difficulties and sources. Our experiments show that our framework significantly improves convergence speed and final performance, highlighting the value of distribution-aware curriculum strategies in LLM post-training. Code: https://github.com/ZhentingWang/DUMP.
- Abstract(参考訳): 強化学習(RL)に基づくポストトレーニングの最近の進歩は、特に複雑なタスクを扱うための推論能力の向上において、大規模言語モデル(LLM)の顕著な改善につながっている。
しかし、既存のほとんどの手法はトレーニングデータを統一された全体として扱っており、現代のLLMトレーニングでは、ソースと難易度の両方で異なる多様な分布からのデータが混在することが多いという事実を見越している。
この異種性は、学習効率を最適化するために、分散間のトレーニングを適応的にスケジュールする方法という、重要な課題を導入します。
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
私たちの中核的な洞察は、政策上の優位性の大きさは、モデルが与えられた分散に関するさらなるトレーニングの恩恵を受けることができることを反映しているということです。
そこで本研究では,RLをベースとしたLLMポストトレーニングのための分布レベルのカリキュラム学習フレームワークを提案する。このフレームワークは,アッパー信頼境界(UCB)の原理を利用して,異なる分散に対するサンプリング確率を動的に調整する。
このアプローチは、高い平均的優位性(探索)または低いサンプル数(探索)を持つ分布を優先し、適応的で理論的に基礎付けられたトレーニングスケジュールを生成する。
基礎となるRLアルゴリズムとしてGRPOを用いてカリキュラム学習フレームワークをインスタンス化し、複数の困難と情報源を持つ論理推論データセット上での有効性を実証する。
実験の結果,本フレームワークはコンバージェンス速度と最終性能を著しく向上させ,LLMポストトレーニングにおける分散型カリキュラム戦略の価値を強調した。
コード:https://github.com/ZhentingWang/DUMP.com
関連論文リスト
- Escaping Collapse: The Strength of Weak Data for Large Language Model Training [15.77316232527746]
LLMの性能を継続的に向上させるために、どの程度のキュレーションが必要なのかを理論的に検討する枠組みを開発する。
非合成トレーニングデータのほとんどすべてが品質が悪い場合でも、最適なLCMに収束する訓練手順を述べる。
論文 参考訳(メタデータ) (2025-02-13T03:20:37Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。