論文の概要: GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14041v1
- Date: Sat, 14 Mar 2026 17:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.565984
- Title: GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける数学的推論のためのGRPOとリフレクション・リワード
- Authors: Zhijie Wang,
- Abstract要約: 本研究では,グループ相対政策最適化とリフレクション報酬機構を統合し,自己回帰能力を高める4段階のフレームワークを提案する。
実験の結果,リフレクション強化トレーニングによるGRPOの最先端性能を実証し,リフレクション報酬が重要な役割を担っていることを確認した。
- 参考スコア(独自算出の注目度): 2.923662104838608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The enhancement of reasoning capabilities in large language models (LLMs) has garnered significant attention, with supervised fine-tuning (SFT) and reinforcement learning emerging as dominant paradigms. While recent studies recognize the importance of reflection in reasoning processes, existing methodologies seldom address proactive reflection encouragement during training. This study focuses on mathematical reasoning by proposing a four-stage framework integrating Group Relative Policy Optimization (GRPO) with reflection reward mechanisms to strengthen LLMs' self-reflective capabilities. Besides, this approach incorporates established accuracy and format reward. Experimental results demonstrate GRPO's state-of-the-art performance through reflection-encouraged training, with ablation studies confirming the reflection reward's pivotal role. Comparative evaluations demonstrate full-parameter SFT's superiority over low-rank adaptation (LoRA) despite heightened computational demands. Building on these cumulative findings, this research substantiates GRPO's methodological significance in post-training optimization and envisions its potential to serve as a pivotal enabler for future LLM-based intelligent agents through the synergistic integration of cognitive rewards with dynamic environmental interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力の向上は、教師付き微調整(SFT)と強化学習が支配的なパラダイムとして出現するなど、大きな注目を集めている。
近年の研究では、推論過程におけるリフレクションの重要性が認識されているが、既存の方法論はトレーニング中のプロアクティブなリフレクション促進にはほとんど対応していない。
本研究では,LLMの自己回帰能力を高めるために,GRPO(Group Relative Policy Optimization)とリフレクション報酬機構を統合した4段階のフレームワークを提案する。
さらに、このアプローチには、確立された精度とフォーマット報酬が組み込まれている。
実験の結果,リフレクション強化トレーニングによるGRPOの最先端性能を実証し,リフレクション報酬が重要な役割を担っていることを確認した。
低ランク適応 (LoRA) よりもフルパラメータSFTの方が高いが, 計算要求は高い。
本研究は,これらの累積的な知見に基づいて,GRPOの学習後の最適化における方法論的意義を実証し,認知報酬と動的環境相互作用の相乗的統合を通じて,将来のLCMベースの知的エージェントの重要イネーブラーとして機能する可能性について考察する。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [23.00801828244201]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。