論文の概要: An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2503.02382v1
- Date: Tue, 04 Mar 2025 08:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:03.207549
- Title: An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning
- Title(参考訳): 数理推論におけるプロセス教師付きリワードモデルのための効率的かつ高精度なトレーニングデータ構築フレームワーク
- Authors: Wei Sun, Qianlong Du, Fuwei Cui, Jiajun Zhang,
- Abstract要約: 本稿では,EpicPRMというフレームワークを紹介し,その定量化貢献に基づいて各中間推論ステップに注釈を付ける。
我々は50kの注釈付き中間ステップからなるEpic50kという高品質なプロセス監視トレーニングデータセットを効率的に構築する。
- 参考スコア(独自算出の注目度): 11.691011429576243
- License:
- Abstract: Enhancing the mathematical reasoning capabilities of Large Language Models (LLMs) is of great scientific and practical significance. Researchers typically employ process-supervised reward models (PRMs) to guide the reasoning process, effectively improving the models' reasoning abilities. However, existing methods for constructing process supervision training data, such as manual annotation and per-step Monte Carlo estimation, are often costly or suffer from poor quality. To address these challenges, this paper introduces a framework called EpicPRM, which annotates each intermediate reasoning step based on its quantified contribution and uses an adaptive binary search algorithm to enhance both annotation precision and efficiency. Using this approach, we efficiently construct a high-quality process supervision training dataset named Epic50k, consisting of 50k annotated intermediate steps. Compared to other publicly available datasets, the PRM trained on Epic50k demonstrates significantly superior performance. Getting Epic50k at https://github.com/xiaolizh1/EpicPRM.
- Abstract(参考訳): LLM(Large Language Models)の数学的推論能力の強化は、非常に科学的かつ実用的な意味を持つ。
研究者は通常、推論プロセスを導くためにプロセス教師付き報酬モデル(PRM)を使用し、モデルの推論能力を効果的に改善する。
しかし,手動のアノテーションやモンテカルロ推定など,既存のプロセス監視トレーニングデータ構築手法は,コストがかかる場合や品質の悪い場合が多い。
これらの課題に対処するために、EpicPRMというフレームワークを導入し、その量化貢献に基づいて各中間推論ステップをアノテートし、適応二分探索アルゴリズムを用いてアノテーションの精度と効率を向上させる。
このアプローチを用いて,50kの注釈付き中間ステップからなるEpic50kという高品質なプロセス監視トレーニングデータセットを効率的に構築する。
他の公開データセットと比較して、Epic50kでトレーニングされたPRMは、非常に優れたパフォーマンスを示している。
Epic50k at https://github.com/xiaolizh1/EpicPRM.com
関連論文リスト
- Outcome-Refining Process Supervision for Code Generation [28.6680126802249]
大規模言語モデルは、深いアルゴリズム推論を必要とする複雑なプログラミングタスクに苦しむ。
本稿では,成果改善自体を監督するプロセスとして扱う新しいパラダイムであるアウトカム・リフィニング・プロセス・スーパービジョンを提案する。
このアプローチは,5つのモデルと3つのデータセットに対して,平均26.9%の精度向上と42.2%の効率向上を実現している。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Efficiency for Free: Ideal Data Are Transportable Representations [12.358393766570732]
最適化と一般化の観点から,データの効率性について検討する。
本稿では,効率的なデータの生成と活用を促進するRepresentation Learning Accelerator (algopt)を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:06:02Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Leveraging Reinforcement Learning and Large Language Models for Code
Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。
提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。
我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。