論文の概要: Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
- arxiv url: http://arxiv.org/abs/2505.17652v1
- Date: Fri, 23 May 2025 09:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.9508
- Title: Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
- Title(参考訳): LLM推論のための強化学習におけるサンプリング基準の再考:能力難易度アライメントの観点から
- Authors: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye,
- Abstract要約: 強化学習は、大規模言語モデルの推論能力を高める可能性を示す。
既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。
本稿では,textbfCompetence-textbfDifficulty textbfAlignment textbfSamplingを紹介する。
- 参考スコア(独自算出の注目度): 27.94738910330893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces \textbf{C}ompetence-\textbf{D}ifficulty \textbf{A}lignment \textbf{S}ampling (\textbf{CDAS}), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is \textbf{2.33} times slower than CDAS.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論能力を向上する可能性を示しているが、ロールアウトフェーズにおいてサンプル効率の低さのためにスケールすることは困難である。
既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。
しかし、これらの手法は、不安定で偏りのある問題難易度の推定に悩まされ、RLトレーニングにおけるモデル能力と問題難易度との整合性を捉えることができず、準最適結果をもたらす。
これらの制約に対処するため,本稿では,問題の歴史的性能の相違を集計することにより,問題の難易度を正確に,安定した推定を可能にする, \textbf{C}ompetence-\textbf{D}ifficulty \textbf{A}lignment \textbf{S}ampling (\textbf{CDAS})を提案する。
そして、モデルの能力を定量化し、固定点系を用いてモデルの現在の能力と整合性のある問題を適応的に選択する。
実験結果から,CDASは精度と効率の両面で大きな改善を達成できることが示された。
CDASはベースラインに対する平均精度が最高に達し、DAPOの競合戦略であるDynamic Smplingと比較して大きな速度優位性を示す。
関連論文リスト
- Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。
本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T03:36:45Z) - Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.212942734663514]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples [54.760757107700755]
Semi-Supervised Learning (SSL)は、豊富なラベルのないデータを活用して、モデルのパフォーマンスを向上させる。
実世界のシナリオにおけるクラス不均衡なデータ分散は、SSLに大きな課題をもたらし、結果としてパフォーマンスが低下する。
マイニングハードケース(SeMi)による不均衡半教師学習の性能向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T14:35:16Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。