論文の概要: VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data
- arxiv url: http://arxiv.org/abs/2502.06737v1
- Date: Mon, 10 Feb 2025 18:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:51.626459
- Title: VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data
- Title(参考訳): VersaPRM:合成推論データによるマルチドメインプロセスリワードモデル
- Authors: Thomas Zeng, Shuibai Zhang, Shutong Wu, Christian Classen, Daewon Chae, Ethan Ewer, Minjae Lee, Heeju Kim, Wonjun Kang, Jackson Kunde, Ying Fan, Jungtaek Kim, Hyung Il Koo, Kannan Ramchandran, Dimitris Papailiopoulos, Kangwook Lee,
- Abstract要約: 本稿では,新しいデータ生成法とアノテーション法を用いて生成した合成推論データに基づいて学習したマルチドメインPRMであるVersaPRMを紹介する。
VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。
VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
- 参考スコア(独自算出の注目度): 21.460891616139534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) have proven effective at enhancing mathematical reasoning for Large Language Models (LLMs) by leveraging increased inference-time computation. However, they are predominantly trained on mathematical data and their generalizability to non-mathematical domains has not been rigorously studied. In response, this work first shows that current PRMs have poor performance in other domains. To address this limitation, we introduce VersaPRM, a multi-domain PRM trained on synthetic reasoning data generated using our novel data generation and annotation method. VersaPRM achieves consistent performance gains across diverse domains. For instance, in the MMLU-Pro category of Law, VersaPRM via weighted majority voting, achieves a 7.9% performance gain over the majority voting baseline -- surpassing Qwen2.5-Math-PRM's gain of 1.3%. We further contribute to the community by open-sourcing all data, code and models for VersaPRM.
- Abstract(参考訳): Process Reward Models (PRMs) は、推論時間計算の増大を利用して、Large Language Models (LLMs) の数学的推論を強化するのに有効であることが証明されている。
しかし、それらは主に数学的データに基づいて訓練されており、非数学的領域への一般化性は厳密には研究されていない。
これに対し、この研究はまず、現在のPRMが他のドメインで性能が劣っていることを示す。
この制限に対処するために,新しいデータ生成およびアノテーション法を用いて生成した合成推論データに基づいて訓練されたマルチドメインPRMであるVersaPRMを紹介した。
VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。
例えば、MMLU-Pro法では、多数決の重み付けによるVersaPRMは、多数決のベースラインよりもパフォーマンスが7.9%向上し、Qwen2.5-Math-PRMの1.3%を上回っている。
VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
関連論文リスト
- Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets [6.001837672951086]
モンテカルロ木探索を用いたプロセス・リワード・モデル(PRM)を提案する。
次に、生成フローネットワーク(GFlowNets)を推論ステップレベルで運用するように適応します。
経験的評価は、挑戦的な数学的ベンチマークにおいて、精度と解の多様性の両方が強く改善されていることを示している。
論文 参考訳(メタデータ) (2025-04-28T16:56:41Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Task Oriented In-Domain Data Augmentation [38.525017729123114]
大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
論文 参考訳(メタデータ) (2024-06-24T14:58:11Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。
人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。
本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文 参考訳(メタデータ) (2020-12-03T14:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。