論文の概要: Reasoning-Aware GRPO using Process Mining
- arxiv url: http://arxiv.org/abs/2510.25065v1
- Date: Wed, 29 Oct 2025 01:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.897529
- Title: Reasoning-Aware GRPO using Process Mining
- Title(参考訳): プロセスマイニングを用いたReasoning-Aware GRPO
- Authors: Taekhyun Park, Yongjae Lee, Hyerim Bae,
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づくポストトレーニングは, 大規模推論モデルにおける多段階推論の実現に不可欠である。
本稿では,PM4GRPOを提案する。PM4GRPOは,推論手順に関する信号による標準回答/形式報酬を増大させるグループ相対ポリシー最適化(GRPO)である。
- 参考スコア(独自算出の注目度): 33.216442032158234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.
- Abstract(参考訳): 強化学習(RL)に基づくポストトレーニングは,大規模推論モデル(LRM)における多段階推論を実現する上で重要であるが,現在の報奨スキームは一般的に結果中心である。
本稿では,PM4GRPOを提案する。PM4GRPOは,推論手順に関する信号による標準回答/形式報酬を増大させるグループ相対ポリシー最適化(GRPO)である。
この目的のために、プロセスマイニング技術を用いて、政策モデルの推論が事前訓練された教師モデルとどの程度密接に一致しているかを測定するスカラー適合報酬を計算する。
5つのベンチマークによる実験結果から,PM4GRPOはGRPOベースのポストトレーニング手法よりも有意に優れていた。
これらの結果は,プロセスマイニングを推論対応GRPOに活用することで,政策モデルの推論能力を効果的に向上することを示した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Can GRPO Help LLMs Transcend Their Pretraining Origin? [42.200901132315636]
グループ相対政策最適化は、大規模言語モデル(LLM)の推論能力を高めるための主要なアプローチである
広く採用されているにもかかわらず、GRPOの利益はしばしば矛盾している。
GRPOはどの条件で推論を改善し、アウト・オブ・ディストリビューション(OOD)を一般化するのか?
まず、GRPOは基本モデルの分布に縛られ、完全に新しい解を見つけることができない保守的な再重み付けスキームであることを理論的に証明する。
論文 参考訳(メタデータ) (2025-10-14T00:37:52Z) - Group Policy Gradient [4.1768453238321515]
グループ・ポリシー・グラディエント(GPG、Group Policy Gradient、グループ・ポリシー・グラディエント・グラディエント、GPG)は、一般のMDPを対象とした、批判のない政策段階の予測指標である。
GPG は標準ベンチマークで PPO と一致し, 性能が優れていることを示す。
論文 参考訳(メタデータ) (2025-10-04T05:20:44Z) - GRPO is Secretly a Process Reward Model [5.637496960655903]
GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
論文 参考訳(メタデータ) (2025-09-25T13:40:36Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Posterior-GRPO: Rewarding Reasoning Processes in Code Generation [11.474187778340012]
強化学習は大規模言語モデルのコード生成に大きく進歩した。
現在のパラダイムは、中間的推論プロセスの品質を無視して、テストケースから得られる結果に基づく報酬に依存しています。
本稿では,RLにおける推論プロセスの品質を効果的に活用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:04:10Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。