論文の概要: StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models
- arxiv url: http://arxiv.org/abs/2509.22558v2
- Date: Wed, 01 Oct 2025 19:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.843643
- Title: StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models
- Title(参考訳): StepORLM: 研究言語モデルを運用するための生成プロセスのスーパービジョンを備えた自己進化型フレームワーク
- Authors: Chenyu Zhou, Tianyi Xu, Jianghao Lin, Dongdong Ge,
- Abstract要約: 我々は、生成過程を監督する新しい自己進化フレームワークであるStepORLMを紹介する。
StepORLMの中核となるのは、ポリシーモデルと生成プロセス報酬モデル(GenPRM)が相互に反復的に改善される、共進化ループである。
- 参考スコア(独自算出の注目度): 18.500046072165254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown promising capabilities for solving Operations Research (OR) problems. While reinforcement learning serves as a powerful paradigm for LLM training on OR problems, existing works generally face two key limitations. First, outcome reward suffers from the credit assignment problem, where correct final answers can reinforce flawed reasoning. Second, conventional discriminative process supervision is myopic, failing to evaluate the interdependent steps of OR modeling holistically. To this end, we introduce StepORLM, a novel self-evolving framework with generative process supervision. At its core, StepORLM features a co-evolutionary loop where a policy model and a generative process reward model (GenPRM) iteratively improve on each other. This loop is driven by a dual-feedback mechanism: definitive, outcome-based verification from an external solver, and nuanced, holistic process evaluation from the GenPRM. The combined signal is used to align the policy via Weighted Direct Preference Optimization (W-DPO) and simultaneously refine the GenPRM. Our resulting 8B-parameter StepORLM establishes a new state-of-the-art across six benchmarks, significantly outperforming vastly larger generalist models, agentic methods, and specialized baselines. Moreover, the co-evolved GenPRM is able to act as a powerful and universally applicable process verifier, substantially boosting the inference scaling performance of both our own model and other existing LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)はオペレーションリサーチ(OR)問題を解決する上で有望な能力を示している。
強化学習は、OR問題に対するLLMトレーニングの強力なパラダイムであるが、既存の研究は一般的に2つの重要な制限に直面している。
第一に、結果報酬は信用割り当ての問題に悩まされ、正しい最終回答は欠陥のある推論を補強する。
第2に、従来の差別的プロセスの監督はミオピックであり、ORモデリングの相互依存的なステップを全体像的に評価することができない。
この目的のために,生成過程を監督する新たな自己進化フレームワークであるStepORLMを紹介した。
StepORLMの中核となるのは、ポリシーモデルと生成プロセス報酬モデル(GenPRM)が相互に反復的に改善される、共進化ループである。
このループは、2重フィードバック機構によって駆動される:決定的、結果に基づく外部解法からの検証と、GenPRMからのニュアンス付き、全体的プロセス評価である。
結合信号は、Weighted Direct Preference Optimization (W-DPO)を介してポリシーを整列し、GenPRMを同時に洗練するために使用される。
結果として得られた8BパラメータのStepORLMは、6つのベンチマークにまたがって新しい最先端のベンチマークを確立し、より大きなジェネラリストモデル、エージェントメソッド、特殊ベースラインを著しく上回ります。
さらに、共進化したGenPRMは、強力で普遍的に適用可能なプロセス検証器として機能し、我々のモデルと既存のLLMの両方の推論スケーリング性能を大幅に向上させる。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。
GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2025-08-06T05:10:29Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。