論文の概要: G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
- arxiv url: http://arxiv.org/abs/2508.13023v1
- Date: Mon, 18 Aug 2025 15:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.460198
- Title: G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
- Title(参考訳): G$^2$RPO-A:Adaptive Guidanceを用いたガイド付きグループ相対政策最適化
- Authors: Yongxin Guo, Wenbo Deng, Zhenglin Cheng, Xiaoying Tang,
- Abstract要約: 転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
- 参考スコア(独自算出の注目度): 1.0591274452539035
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has markedly enhanced the reasoning abilities of large language models (LLMs). Its success, however, largely depends on strong base models with rich world knowledge, yielding only modest improvements for small-size language models (SLMs). To address this limitation, we investigate Guided GRPO, which injects ground-truth reasoning steps into roll-out trajectories to compensate for SLMs' inherent weaknesses. Through a comprehensive study of various guidance configurations, we find that naively adding guidance delivers limited gains. These insights motivate G$^2$RPO-A, an adaptive algorithm that automatically adjusts guidance strength in response to the model's evolving training dynamics. Experiments on mathematical reasoning and code-generation benchmarks confirm that G$^2$RPO-A substantially outperforms vanilla GRPO. Our code and models are available at https://github.com/T-Lab-CUHKSZ/G2RPO-A.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を著しく強化した。
しかし、その成功は大半が豊かな世界知識を持つ強力なベースモデルに依存しており、小型言語モデル(SLM)に対してわずかに改善されているだけである。
この制限に対処するために,SLM 固有の弱点を補うために,地道推論ステップをロールアウト軌道に注入する Guided GRPO について検討する。
様々なガイダンス構成に関する総合的な研究により、ナビゲートの追加は限られた利益をもたらすことが判明した。
これらの洞察はG$^2$RPO-Aを動機付け、モデルの進化するトレーニングダイナミクスに応じて誘導強度を自動的に調整する適応アルゴリズムである。
数学的推論とコード生成ベンチマークの実験により、G$^2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
私たちのコードとモデルはhttps://github.com/T-Lab-CUHKSZ/G2RPO-A.comで公開されています。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models [3.207886496235499]
検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。
RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を介して、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主な方法でパフォーマンスを駆動する。
論文 参考訳(メタデータ) (2025-06-16T19:03:06Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。
従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。
本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-03T12:53:41Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。