論文の概要: Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets
- arxiv url: http://arxiv.org/abs/2504.19981v1
- Date: Mon, 28 Apr 2025 16:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.518355
- Title: Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets
- Title(参考訳): 自動PRM誘導GFlowNetによるLLM数学的推論の高精度化
- Authors: Adam Younsi, Abdalgader Abubaker, Mohamed El Amine Seddik, Hakim Hacid, Salem Lahlou,
- Abstract要約: モンテカルロ木探索を用いたプロセス・リワード・モデル(PRM)を提案する。
次に、生成フローネットワーク(GFlowNets)を推論ステップレベルで運用するように適応します。
経験的評価は、挑戦的な数学的ベンチマークにおいて、精度と解の多様性の両方が強く改善されていることを示している。
- 参考スコア(独自算出の注目度): 6.001837672951086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving both accuracy and diverse reasoning remains challenging for Large Language Models (LLMs) in complex domains like mathematics. A key bottleneck is evaluating intermediate reasoning steps to guide generation without costly human annotations. To address this, we first introduce a novel Process Reward Model (PRM) trained automatically using Monte Carlo Tree Search coupled with a similarity-based data augmentation technique, effectively capturing step-level reasoning quality. Leveraging this PRM, we then adapt Generative Flow Networks (GFlowNets) to operate at the reasoning step level. Unlike traditional reinforcement learning focused on maximizing a single reward, GFlowNets naturally sample diverse, high-quality solutions proportional to their rewards, as measured by our PRM. Empirical evaluation shows strong improvements in both accuracy and solution diversity on challenging mathematical benchmarks (e.g., +2.59% absolute accuracy on MATH Level 5 for Llama3.2-3B), with effective generalization to unseen datasets (+9.4% absolute on SAT MATH). Our work demonstrates the potential of PRM-guided, step-level GFlowNets for developing more robust and versatile mathematical reasoning in LLMs.
- Abstract(参考訳): 数学のような複雑な領域における大規模言語モデル(LLM)では、精度と多様な推論の両方を達成することは依然として困難である。
重要なボトルネックは、人的アノテーションを犠牲にすることなく生成をガイドする中間的推論ステップを評価することである。
そこで我々はまず,モンテカルロ木探索と類似性に基づくデータ拡張手法を併用し,ステップレベルの推論品質を効果的に把握するプロセス・リワード・モデル(PRM)を提案する。
このPRMを活用して、ジェネレーティブフローネットワーク(GFlowNets)を推論ステップレベルで動作させる。
一つの報酬を最大化することに焦点を当てた従来の強化学習とは異なり、GFlowNetsはPRMが測定したように、報酬に比例した多様な高品質のソリューションを自然にサンプリングする。
経験的評価は、挑戦的な数学ベンチマーク(例えば、Llama3.2-3BのMATHレベル5における2.59%の絶対精度)の精度と解の多様性の両面で強い改善を示し、未確認データセットへの効果的な一般化(SAT MATHでは+9.4%の絶対値)を示した。
我々の研究は、より堅牢で汎用的な数学的推論をLLMで開発するための、PRM誘導のステップレベルGFlowNetの可能性を実証している。
関連論文リスト
- Inference-Time Scaling for Generalist Reward Modeling [25.62000059973935]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。
RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。
本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-04-03T11:19:49Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
Process Reward Model (PRM) は報酬のハッキングに悩まされており、最良の中間ステップを特定することは不可能である。
個人と連続的な推論のステップを評価する新しい報酬モデル手法である階層リワードモデル(HRM)を提案する。
HRMは、特に前の推論ステップが間違っていた場合に、推論コヒーレンスと自己回帰を評価するのに優れる。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。