論文の概要: DARO: Difficulty-Aware Reweighting Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.09001v1
- Date: Fri, 10 Oct 2025 04:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.114567
- Title: DARO: Difficulty-Aware Reweighting Policy Optimization
- Title(参考訳): DARO:難解な再重み付け政策最適化
- Authors: Jingyu Zhou, Lu Ma, Hao Liang, Chengyu Shen, Bin Cui, Wentao Zhang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)の事実上のアプローチとしてグループ相対政策最適化(GRPO)が登場した。
サンプルの難易度に結びついた静的あるいは過度に単純化された重み付けスキームへの依存が、モデルの進化する機能への適応を妨げていることを示す統一ビューを提供する。
本稿では,bfbfDifficulty-Aware Reweighting Policy Optimization (DARO)を紹介する。
- 参考スコア(独自算出の注目度): 18.07946696398167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have shown that reasoning ability can be significantly enhanced through Reinforcement Learning with Verifiable Rewards (RLVR). Group Relative Policy Optimization (GRPO) has emerged as the de facto approach for RLVR, inspiring numerous variants. However, our mathematical analysis reveals that these methods are fundamentally weighted variations of GRPO. We provide a unified view, demonstrating that their reliance on static or overly simplistic weighting schemes tied to sample difficulty prevents adaptation to a model's evolving capabilities. This creates a significant loss scale issue, where training disproportionately focuses on certain difficulty levels at the expense of others, hindering overall performance. To address these limitations, we introduce \textbf{Difficulty-Aware Reweighting Policy Optimization (DARO)}, a method that dynamically adjusts the loss contribution of each difficulty group based on the model's learning state. Extensive experiments on Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, and Llama3.1-8B show that DARO outperforms four leading baselines across six math benchmarks, achieving significantly faster convergence and superior final performance.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) の進歩により, 推論能力はReinforcement Learning with Verifiable Rewards (RLVR) を通じて著しく向上することが示されている。
グループ相対政策最適化(GRPO)は、RLVRの事実上のアプローチとして現れ、多くのバリエーションを刺激している。
しかし,本解析により,これらの手法がGRPOの基本的な重み付き変動であることが明らかとなった。
サンプルの難易度に結びついた静的あるいは過度に単純化された重み付けスキームへの依存が、モデルの進化する機能への適応を妨げていることを示す統一ビューを提供する。
これは大きな損失スケールの問題を生じさせ、トレーニングが不均等に他人を犠牲にしてある種の困難レベルに焦点を合わせ、全体的なパフォーマンスを妨げます。
これらの制約に対処するために,モデルの学習状態に基づいて,各難題群の損失貢献を動的に調整する手法である,DARO(textbf{Difficulty-Aware Reweighting Policy Optimization)を導入する。
Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Llama3.1-8Bの大規模な実験は、DAROが6つの数学ベンチマークで4つの主要なベースラインを上回り、より高速な収束と優れた最終性能を実現していることを示している。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.3831554157916835]
グループ相対政策最適化(GRPO)はR1のような推論モデルで広く採用されている。
GRPO-LEAD は,(1) 精度を維持しながら簡潔さを向上するための長規則化報酬,(2) モデル精度を向上させるための不正解に対する明確な罰則,(3) 難解な問題に対する堅牢な一般化のための困難に配慮した有利な再重み付けを提案する。
提案手法は,14Bスケールモデルに対する最先端性能を実現し,適切なモデルスケールと高品質なデータを用いた手法の相乗効果を実証する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。