論文の概要: Reasoning-Aware GRPO using Process Mining
- arxiv url: http://arxiv.org/abs/2510.25065v1
- Date: Wed, 29 Oct 2025 01:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.897529
- Title: Reasoning-Aware GRPO using Process Mining
- Title(参考訳): プロセスマイニングを用いたReasoning-Aware GRPO
- Authors: Taekhyun Park, Yongjae Lee, Hyerim Bae,
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づくポストトレーニングは, 大規模推論モデルにおける多段階推論の実現に不可欠である。
本稿では,PM4GRPOを提案する。PM4GRPOは,推論手順に関する信号による標準回答/形式報酬を増大させるグループ相対ポリシー最適化(GRPO)である。
- 参考スコア(独自算出の注目度): 33.216442032158234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.
- Abstract(参考訳): 強化学習(RL)に基づくポストトレーニングは,大規模推論モデル(LRM)における多段階推論を実現する上で重要であるが,現在の報奨スキームは一般的に結果中心である。
本稿では,PM4GRPOを提案する。PM4GRPOは,推論手順に関する信号による標準回答/形式報酬を増大させるグループ相対ポリシー最適化(GRPO)である。
この目的のために、プロセスマイニング技術を用いて、政策モデルの推論が事前訓練された教師モデルとどの程度密接に一致しているかを測定するスカラー適合報酬を計算する。
5つのベンチマークによる実験結果から,PM4GRPOはGRPOベースのポストトレーニング手法よりも有意に優れていた。
これらの結果は,プロセスマイニングを推論対応GRPOに活用することで,政策モデルの推論能力を効果的に向上することを示した。
関連論文リスト
- Can GRPO Help LLMs Transcend Their Pretraining Origin? [42.200901132315636]
グループ相対政策最適化は、大規模言語モデル(LLM)の推論能力を高めるための主要なアプローチである
広く採用されているにもかかわらず、GRPOの利益はしばしば矛盾している。
GRPOはどの条件で推論を改善し、アウト・オブ・ディストリビューション(OOD)を一般化するのか?
まず、GRPOは基本モデルの分布に縛られ、完全に新しい解を見つけることができない保守的な再重み付けスキームであることを理論的に証明する。
論文 参考訳(メタデータ) (2025-10-14T00:37:52Z) - GRPO is Secretly a Process Reward Model [5.637496960655903]
GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
論文 参考訳(メタデータ) (2025-09-25T13:40:36Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Posterior-GRPO: Rewarding Reasoning Processes in Code Generation [11.474187778340012]
強化学習は大規模言語モデルのコード生成に大きく進歩した。
現在のパラダイムは、中間的推論プロセスの品質を無視して、テストケースから得られる結果に基づく報酬に依存しています。
本稿では,RLにおける推論プロセスの品質を効果的に活用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:04:10Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。