論文の概要: AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting
- arxiv url: http://arxiv.org/abs/2511.09478v1
- Date: Thu, 13 Nov 2025 01:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.587005
- Title: AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting
- Title(参考訳): AdaCuRL:無作為なサンプル除去と歴史的再考による適応型カリキュラム強化学習
- Authors: Renda Li, Hailang Huang, Fei Wei, Feng Xiong, Yong Wang, Xiangxiang Chu,
- Abstract要約: 強化学習は大規模言語モデル(LLM)における推論を強化する
既存の方法は、難易度が混ざったサンプルで直接トレーニングを行う際に、グラディエント飢餓と政策劣化に悩まされる。
AdaCuRLは、粗大な難易度推定と適応的なカリキュラムスケジューリングを統合する。
- 参考スコア(独自算出の注目度): 23.630999806649914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated considerable potential for enhancing reasoning in large language models (LLMs). However, existing methods suffer from Gradient Starvation and Policy Degradation when training directly on samples with mixed difficulty. To mitigate this, prior approaches leverage Chain-of-Thought (CoT) data, but the construction of high-quality CoT annotations remains labor-intensive. Alternatively, curriculum learning strategies have been explored but frequently encounter challenges, such as difficulty mismatch, reliance on manual curriculum design, and catastrophic forgetting. To address these issues, we propose AdaCuRL, a Adaptive Curriculum Reinforcement Learning framework that integrates coarse-to-fine difficulty estimation with adaptive curriculum scheduling. This approach dynamically aligns data difficulty with model capability and incorporates a data revisitation mechanism to mitigate catastrophic forgetting. Furthermore, AdaCuRL employs adaptive reference and sparse KL strategies to prevent Policy Degradation. Extensive experiments across diverse reasoning benchmarks demonstrate that AdaCuRL consistently achieves significant performance improvements on both LLMs and MLLMs.
- Abstract(参考訳): 強化学習 (RL) は, 大規模言語モデル (LLM) における推論の強化に有意な可能性を示唆している。
しかし, 従来の方法は, 難易度の高い試料を直接訓練する場合に, 過度の飢餓と政策劣化に悩まされる。
これを軽減するために、事前のアプローチではChain-of-Thought(CoT)データを活用するが、高品質なCoTアノテーションの構築は依然として労働集約的である。
あるいは、カリキュラム学習戦略が検討されてきたが、難しいミスマッチ、手作業によるカリキュラム設計への依存、破滅的な忘れなど、しばしば課題に直面している。
これらの問題に対処するために、粗大な難易度推定と適応型カリキュラムスケジューリングを統合する適応型カリキュラム強化学習フレームワークであるAdaCuRLを提案する。
このアプローチは、データの難易度をモデル能力と動的に整合させ、破滅的な忘れを緩和するデータ修正機構を組み込む。
さらに、AdaCuRLは政策劣化を防ぐために適応参照とスパースKL戦略を採用している。
様々な推論ベンチマークによる大規模な実験により、AdaCuRLはLLMとMLLMの両方で一貫した性能向上を実現している。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback [36.919559767160415]
本稿では,データ中心アプローチによる報酬モデルの一般化性の向上を試みる。
本稿では,様々な難易度を持つ選好ペアを構成する新しいフレームワークである$textitCurriculum-RLAIFを提案する。
実験結果から,Curriculum-RLAIFでトレーニングした報酬モデルにより,一般化性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-26T14:53:08Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。