論文の概要: SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process Annotation
- arxiv url: http://arxiv.org/abs/2505.14419v1
- Date: Tue, 20 May 2025 14:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.357962
- Title: SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process Annotation
- Title(参考訳): SCOPE:効率的な自動プロセスアノテーションのための数学的推論ステップの圧縮
- Authors: Huimin Xu, Xin Mao, Feng-Lin Li, Xiaobao Wu, Wang Chen, Wei Zhang, Anh Tuan Luu,
- Abstract要約: 本稿では、アノテーションのコストを大幅に削減する新しい圧縮ベースのアプローチであるSCOPE(Step Compression for Process Estimation)を紹介する。
我々は,従来の計算資源の5%しか必要とせず,196Kのサンプルを含む大規模データセットを構築した。
実験の結果、私たちのデータセットでトレーニングされたPRMは、Best-of-N戦略とProcessBenchの両方で既存の自動アノテーションアプローチより一貫して優れています。
- 参考スコア(独自算出の注目度): 30.096211889103998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) have demonstrated promising results in mathematical reasoning, but existing process annotation approaches, whether through human annotations or Monte Carlo simulations, remain computationally expensive. In this paper, we introduce Step COmpression for Process Estimation (SCOPE), a novel compression-based approach that significantly reduces annotation costs. We first translate natural language reasoning steps into code and normalize them through Abstract Syntax Tree, then merge equivalent steps to construct a prefix tree. Unlike simulation-based methods that waste numerous samples on estimation, SCOPE leverages a compression-based prefix tree where each root-to-leaf path serves as a training sample, reducing the complexity from $O(NMK)$ to $O(N)$. We construct a large-scale dataset containing 196K samples with only 5% of the computational resources required by previous methods. Empirical results demonstrate that PRMs trained on our dataset consistently outperform existing automated annotation approaches on both Best-of-N strategy and ProcessBench.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRMs) は、数学的推論において有望な結果を示しているが、人間のアノテーションやモンテカルロのシミュレーションを通じても、既存のプロセス・アノテーションのアプローチは計算コストが高いままである。
本稿では、アノテーションのコストを大幅に削減する新しい圧縮ベースアプローチ、SCOPE(Step Compression for Process Estimation)を提案する。
まず、自然言語推論ステップをコードに変換して抽象構文木を通して正規化し、その後、等価なステップをマージしてプレフィックスツリーを構築します。
推定に多くのサンプルを浪費するシミュレーションベースの手法とは異なり、SCOPEは、各ルートからリーフへのパスがトレーニングサンプルとして機能する圧縮ベースのプレフィックスツリーを活用し、複雑さを$O(NMK)$から$O(N)$に削減する。
我々は,従来の計算資源の5%しか必要とせず,196Kのサンプルを含む大規模データセットを構築した。
実験の結果、私たちのデータセットでトレーニングされたPRMは、Best-of-N戦略とProcessBenchの両方で既存の自動アノテーションアプローチより一貫して優れています。
関連論文リスト
- MT-RewardTree: A Comprehensive Framework for Advancing LLM-Based Machine Translation via Reward Modeling [7.980524378201173]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の複雑な推論タスクに成功している。
しかし, 機械翻訳(MT)への応用は, 体系的手法や評価ベンチマークが欠如しているため, 未検討のままである。
我々は,プロセス報酬モデルの構築,評価,デプロイを行う包括的なフレームワークであるtextbfMT-RewardTreeを紹介した。
論文 参考訳(メタデータ) (2025-03-15T13:04:51Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。
LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。
重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Summarization Programs: Interpretable Abstractive Summarization with
Neural Modular Trees [89.60269205320431]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。
本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。
要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文 参考訳(メタデータ) (2022-09-21T16:50:22Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。