論文の概要: D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.17037v1
- Date: Sat, 16 May 2026 15:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.508008
- Title: D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning
- Title(参考訳): D$2$Evo:データ効率の良い強化学習のための二重困難を考慮した自己進化
- Authors: Ru Zhang, Renda Li, Ziyu Ma, Weijie Qiu, Chongyang Tao, Yong Wang, Xiangxiang Chu,
- Abstract要約: 本稿では,D$2$Evo,Dual Difficulty-aware self-Evolution RLフレームワークを提案する。
各イテレーションにおいて,本手法は中級難易度アンカーをマイニングし,質問者に対して適切な難易度で多様な質問を生成するよう訓練する。
大規模な実験により、D$2$Evoは2K以下の実数学サンプルを持つ数学的推論ベンチマークにおいて、既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 41.94719825003411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated potential for enhancing reasoning in large language models (LLMs). However, effective RL training, which requires medium-difficulty training samples, faces two fundamental challenges: Effective Data Scarcity and Dynamic Difficulty Shifts, where medium-difficulty samples are scarce and become trivial as models improve. Existing methods mitigate this scarcity to some extent by generating training samples. However, these approaches suffer from anchor-free generation, ignoring co-evolution, and difficulty mismatch. To address these issues, we propose D$^2$Evo, a Dual Difficulty-aware self-Evolution RL framework. In each iteration, our method mines medium-difficulty anchors based on the current Solver's capability, trains the Questioner to generate diverse questions at appropriate difficulty levels, and jointly optimizes both components to enable progressive reasoning gains. Extensive experiments demonstrate that D$^2$Evo outperforms existing methods on mathematical reasoning benchmarks with fewer than 2K real mathematical samples, and exhibits strong generalization on general reasoning benchmarks.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)における推論の強化の可能性を実証している。
しかし、実効的なRLトレーニングは、中分化的なトレーニングサンプルを必要とするため、2つの根本的な課題に直面している。
既存の方法は、トレーニングサンプルを生成することによって、この不足をある程度軽減する。
しかしながら、これらのアプローチはアンカーフリーな生成、共進化を無視し、ミスマッチの難しさに悩まされている。
これらの問題に対処するため、我々はD$^2$Evo(Dual Difficulty-aware self-Evolution RL framework)を提案する。
それぞれのイテレーションにおいて,現在のソルバー能力に基づいて中分散アンカーをマイニングし,適切な難易度で多様な質問を生成できるように質問者を訓練し,段階的推論ゲインを実現するために両コンポーネントを協調的に最適化する。
大規模な実験により、D$^2$Evoは2K以下の実数学的なサンプルを持つ数学的推論ベンチマークにおいて既存の手法よりも優れており、一般的な推論ベンチマークでは強い一般化が示される。
関連論文リスト
- Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems [70.94268452442147]
検証可能な報酬(RLVR)からの強化学習はLLMの推論能力を改善した。
本稿では,タスク修正に基づくシンプルで効果的なソリューションを提案する。
本稿では,Cag-DRIFTについて紹介する。このフレームワークは改良された変種を構築し,適応的なカリキュラムに編成する。
論文 参考訳(メタデータ) (2026-04-06T15:38:38Z) - LLMs Encode How Difficult Problems Are [4.990590622073335]
大規模言語モデルが人間の判断に沿う方法で問題難易度を符号化するかどうかを検討する。
我々は60のモデルで層とトークンの位置の線形プローブを訓練し、Easy2HardBenchの数学的および符号化部分集合を評価した。
論文 参考訳(メタデータ) (2025-10-20T22:48:23Z) - DARO: Difficulty-Aware Reweighting Policy Optimization [18.07946696398167]
RLVR(Reinforcement Learning with Verifiable Rewards)の事実上のアプローチとしてグループ相対政策最適化(GRPO)が登場した。
サンプルの難易度に結びついた静的あるいは過度に単純化された重み付けスキームへの依存が、モデルの進化する機能への適応を妨げていることを示す統一ビューを提供する。
本稿では,bfbfDifficulty-Aware Reweighting Policy Optimization (DARO)を紹介する。
論文 参考訳(メタデータ) (2025-10-10T04:57:15Z) - VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models [7.350120815363245]
既存のロールアウト型強化学習手法では, 難易度が異なるサンプルに対して, LLMの学習能力を明示的に考慮することができない。
グループ報酬の分散に基づくトレーニングサンプルの難易度を動的に制御するカリキュラム強化学習フレームワークであるVCRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T06:38:58Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。
本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T03:36:45Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。