論文の概要: Are complicated loss functions necessary for teaching LLMs to reason?
- arxiv url: http://arxiv.org/abs/2603.18756v1
- Date: Thu, 19 Mar 2026 11:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.100245
- Title: Are complicated loss functions necessary for teaching LLMs to reason?
- Title(参考訳): LLMに推論を教えるには複雑な損失関数が必要か?
- Authors: Gabriele Carrino, Andrea Sassella, Nicolo Brunello, Federico Toschi, Mark James Carman,
- Abstract要約: グループ相対政策最適化は、大規模言語モデル(LLM)において有望であることを示す。
ReINFORCE with Group Relative Advantage (RGRA) は、グループ相対的優位性を保ちつつ、PPOスタイルのクリッピングとポリシー比の項を除去する単純化された変種である。
以上の結果から,よりシンプルなREINFORCEベースのアプローチはLLMの推論を効果的に促進し,GRPOのより透明で効率的な代替手段を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.16383644639245779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) highlight the importance of post training techniques for improving reasoning and mathematical ability. Group Relative Policy Optimization (GRPO) has shown promise in this domain by combining group relative advantage estimation, PPO style clipping, and KL regularization. However, its complexity raises the question of whether all components are necessary for fostering reasoning behaviors. We conduct a systematic analysis of GRPO and identify two key findings: (1) incorporating negative feedback is essential training solely on actions above a baseline limits learning; and (2) PPO style constraints, such as policy ratio clipping, are not required to improve mathematical reasoning or performance. Building on these insights, we propose REINFORCE with Group Relative Advantage (RGRA), a simplified variant that retains group relative advantage estimation but removes PPO style clipping and policy ratio terms. Experiments across standard mathematical benchmarks indicate that RGRA has the potential to achieve stronger performance than GRPO. Our results suggest that simpler REINFORCE based approaches can effectively enhance reasoning in LLMs, offering a more transparent and efficient alternative to GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論と数学的能力を改善するためのポストトレーニング技術の重要性を強調している。
グループ相対的政策最適化(GRPO)は、グループ相対的優位性推定、PPOスタイルのクリッピング、KL正規化を組み合わせることで、この領域において有望であることを示す。
しかし、その複雑さは、すべてのコンポーネントが推論行動を促進するのに必要かどうかという問題を提起する。
我々はGRPOの体系的な分析を行い、(1) 負のフィードバックを取り入れることが、基礎的限界学習以上の行動のみに必須の訓練であること、(2) 数学的推論や性能を改善するためにPPOスタイルの制約を必要としない、という2つの重要な知見を同定する。
これらの知見に基づいて、グループ相対的優位性評価を保ちつつ、PPOスタイルのクリッピングとポリシー比の項を除去する単純化された変種であるグループ相対的アドバンテージ(RGRA)を用いたREINFORCEを提案する。
標準的な数学ベンチマークによる実験は、RGRAがGRPOよりも強力な性能を達成する可能性を示している。
以上の結果から,よりシンプルなREINFORCEベースのアプローチはLLMの推論を効果的に促進し,GRPOのより透明で効率的な代替手段を提供する可能性が示唆された。
関連論文リスト
- Your Group-Relative Advantage Is Biased [74.57406620907797]
グループベースの学習手法は、学習評論家を避けるためにグループ相対的な優位性推定に依存する。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
適応的再重み付け方式であるヒストリー・アウェア適応困難度重み付け(HA-DW)を提案する。
論文 参考訳(メタデータ) (2026-01-13T13:03:15Z) - Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments [1.9559952759908155]
グループ相対政策最適化(GRPO)は、PPO(Proximal Policy Optimization)に代わるスケーラブルな代替手段として登場した。
本稿では,従来の単一タスク強化学習環境におけるGRPOの体系的研究について述べる。
論文 参考訳(メタデータ) (2025-11-05T15:01:32Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。