論文の概要: DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.09655v2
- Date: Fri, 16 May 2025 00:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.89885
- Title: DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models
- Title(参考訳): DRA-GRPO:R1-Zeroライクな大規模言語モデルの学習のための多様性を考慮したリワード調整の探索
- Authors: Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi,
- Abstract要約: 本稿では,報酬計算に意味的多様性を明示的に組み込む手法である$textitDiversity-aware Reward Adjustment$ (DRA)を提案する。
DRAは、サブモジュール・ミューチュアル・インフォメーション(SMI)を使用して、冗長な補完を減らし、様々なものに対する報酬を増幅する。
最先端のパフォーマンスを平均58.2%の精度で達成し、微調整サンプルは7000点、訓練費は約55ドルだった。
- 参考スコア(独自算出の注目度): 5.125711540219288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning for language model post-training, such as Group Relative Policy Optimization (GRPO), have shown promise in low-resource settings. However, GRPO typically relies on solution-level and scalar reward signals that fail to capture the semantic diversity among sampled completions. This leads to what we identify as a diversity-quality inconsistency, where distinct reasoning paths may receive indistinguishable rewards. To address this limitation, we propose $\textit{Diversity-aware Reward Adjustment}$ (DRA), a method that explicitly incorporates semantic diversity into the reward computation. DRA uses Submodular Mutual Information (SMI) to downweight redundant completions and amplify rewards for diverse ones. This encourages better exploration during learning, while maintaining stable exploitation of high-quality samples. Our method integrates seamlessly with both GRPO and its variant DR.~GRPO, resulting in $\textit{DRA-GRPO}$ and $\textit{DGA-DR.~GRPO}$. We evaluate our method on five mathematical reasoning benchmarks and find that it outperforms recent strong baselines. It achieves state-of-the-art performance with an average accuracy of 58.2%, using only 7,000 fine-tuning samples and a total training cost of approximately $55. The code is available at https://github.com/xiwenc1/DRA-GRPO.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような言語モデル後学習における強化学習の最近の進歩は、低リソース環境において有望であることを示している。
しかし、GRPOは典型的には、サンプリングされた完了のセマンティックな多様性を捉えない解レベルおよびスカラー報酬信号に依存している。
これは、異なる推論パスが区別不能な報酬を受ける可能性がある、多様性品質の不整合であると私たちが認識するものにつながります。
この制限に対処するため、報酬計算に意味的多様性を明示的に組み込む手法である$\textit{Diversity-aware Reward Adjustment}$ (DRA)を提案する。
DRAは、サブモジュール・ミューチュアル・インフォメーション(SMI)を使用して、冗長な補完を減らし、様々なものに対する報酬を増幅する。
これは、高品質なサンプルの安定した利用を維持しながら、学習中のより良い探索を促進する。
本手法はGRPOとその変種DRをシームレスに統合する。
$\textit{DRA-GRPO}$と$\textit{DGA-DR。
~GRPO}$。
提案手法を5つの数学的推論ベンチマークで評価し,近年の強いベースラインよりも優れていることを示す。
最先端のパフォーマンスを平均58.2%の精度で達成し、微調整サンプルは7000点、訓練費は約55ドルだった。
コードはhttps://github.com/xiwenc1/DRA-GRPOで公開されている。
関連論文リスト
- Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。
これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。
本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - ARGS: Alignment as Reward-Guided Search [17.420727709895736]
我々は、アライメントをデコードプロセスに統合する新しいフレームワーク、ARGS、アライメントをReward-Guided Searchとして紹介する。
報酬信号を用いてモデルの確率的予測を調整することにより、ARGSは人間の好みに合わせて意味的な多様性を持つテキストを生成する。
当社のフレームワークは,デコード時のアライメントを重視したもので,将来的にはよりレスポンシブな言語モデルの道を開くものと信じています。
論文 参考訳(メタデータ) (2024-01-23T23:42:41Z) - Improved Sample Complexity for Reward-free Reinforcement Learning under
Low-rank MDPs [43.53286390357673]
本稿では,低ランクMDPモデルによる報酬なし強化学習に焦点を当てた。
我々はまず、低ランクのMDPの下での任意のアルゴリズムに対して、最初の既知のサンプル複雑性の低い境界を提供する。
次に、RAFFLEと呼ばれる新しいモデルベースアルゴリズムを提案し、$epsilon$-optimal Policyを見つけ、$epsilon$-accurate system IDを実現できることを示す。
論文 参考訳(メタデータ) (2023-03-20T04:39:39Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z) - Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。
提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。
SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文 参考訳(メタデータ) (2020-01-08T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。