論文の概要: Improve Mathematical Reasoning in Language Models by Automated Process Supervision
- arxiv url: http://arxiv.org/abs/2406.06592v1
- Date: Wed, 5 Jun 2024 19:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:14:20.634802
- Title: Improve Mathematical Reasoning in Language Models by Automated Process Supervision
- Title(参考訳): 自動プロセススーパービジョンによる言語モデルの数学的推論の改善
- Authors: Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi,
- Abstract要約: 高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
- 参考スコア(独自算出の注目度): 22.72856086318912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named \textit{OmegaPRM} for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods.
- Abstract(参考訳): 数学的問題の解決やコード生成といった複雑な多段階推論タスクは、最も先進的な大規模言語モデル(LLM)でさえも大きなハードルとなる。
LLMの出力をORM(Outcome Reward Model)で検証することは、LLMの推論性能を向上させるための標準推論時間技術である。
しかし、これは、中間結果が適切に報酬や罰則が与えられていない長い、または複数のホップ推論チェーンを持つタスクの推論には不十分であることを示す。
プロセス監督は、推論プロセス中に中間報酬を割り当てることで、この制限に対処する。
これまで、プロセスの監視データ収集に使われた手法は、人間のアノテーションやモンテカルロのステップごとの見積もりに頼っていた。
この課題に対応して,高品質なプロセス監視データの効率的な収集を目的とした,MCTSアルゴリズムである「textit{OmegaPRM}」を提案する。
このアルゴリズムは、二項探索によるChain of Thought(CoT)の最初のエラーを迅速に識別し、正と負の例のバランスをとり、効率と品質の両立を保証する。
その結果、プロセスリワードモデル(Process Reward Model:PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できるようになりました。
この完全自動化プロセスの監督と重み付き自己整合性アルゴリズムを併用して、Gemini Proモデルの数学推論性能を改良し、MATHベンチマークで69.4 %の成功率、51 %のベースモデル性能から36 %の改善を実現した。
さらに、プロセス全体が人間の介入なしに動作し、既存の方法と比較して、我々の手法は金銭的にも計算的にも費用対効果がある。
関連論文リスト
- MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [19.76034177986023]
MindStarは純粋に推論に基づく探索手法であり、推論タスクを探索問題として扱う。
GSM8KとMATHの両方のデータセット上でM*フレームワークを評価する。
以上の結果から,M*はオープンソースモデルの推論能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - AlphaMath Almost Zero: process Supervision without process [6.318873143509028]
大規模言語モデル(LLM)は、複数の推論ステップを必要とする複雑な問題に悩まされる。
我々はモンテカルロ木探索(MCTS)フレームワークを利用することで、プロセスアノテーション(人間やGPTから)の必要性を回避できる革新的なアプローチを導入する。
提案手法はポリシーと価値モデルを反復的に訓練し,LLMの能力を活用している。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision [43.03988648915096]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function
Approximation [12.36108042107798]
マルコフ決定過程におけるモデルに基づく強化学習について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
本稿では,提案アルゴリズムが既存の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。