論文の概要: Improve Mathematical Reasoning in Language Models by Automated Process Supervision
- arxiv url: http://arxiv.org/abs/2406.06592v1
- Date: Wed, 5 Jun 2024 19:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:14:20.634802
- Title: Improve Mathematical Reasoning in Language Models by Automated Process Supervision
- Title(参考訳): 自動プロセススーパービジョンによる言語モデルの数学的推論の改善
- Authors: Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi,
- Abstract要約: 高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
- 参考スコア(独自算出の注目度): 22.72856086318912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named \textit{OmegaPRM} for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods.
- Abstract(参考訳): 数学的問題の解決やコード生成といった複雑な多段階推論タスクは、最も先進的な大規模言語モデル(LLM)でさえも大きなハードルとなる。
LLMの出力をORM(Outcome Reward Model)で検証することは、LLMの推論性能を向上させるための標準推論時間技術である。
しかし、これは、中間結果が適切に報酬や罰則が与えられていない長い、または複数のホップ推論チェーンを持つタスクの推論には不十分であることを示す。
プロセス監督は、推論プロセス中に中間報酬を割り当てることで、この制限に対処する。
これまで、プロセスの監視データ収集に使われた手法は、人間のアノテーションやモンテカルロのステップごとの見積もりに頼っていた。
この課題に対応して,高品質なプロセス監視データの効率的な収集を目的とした,MCTSアルゴリズムである「textit{OmegaPRM}」を提案する。
このアルゴリズムは、二項探索によるChain of Thought(CoT)の最初のエラーを迅速に識別し、正と負の例のバランスをとり、効率と品質の両立を保証する。
その結果、プロセスリワードモデル(Process Reward Model:PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できるようになりました。
この完全自動化プロセスの監督と重み付き自己整合性アルゴリズムを併用して、Gemini Proモデルの数学推論性能を改良し、MATHベンチマークで69.4 %の成功率、51 %のベースモデル性能から36 %の改善を実現した。
さらに、プロセス全体が人間の介入なしに動作し、既存の方法と比較して、我々の手法は金銭的にも計算的にも費用対効果がある。
関連論文リスト
- Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Outcome-Refining Process Supervision for Code Generation [28.6680126802249]
大規模言語モデルは、深いアルゴリズム推論を必要とする複雑なプログラミングタスクに苦しむ。
本稿では,成果改善自体を監督するプロセスとして扱う新しいパラダイムであるアウトカム・リフィニング・プロセス・スーパービジョンを提案する。
このアプローチは,5つのモデルと3つのデータセットに対して,平均26.9%の精度向上と42.2%の効率向上を実現している。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。
本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文 参考訳(メタデータ) (2024-09-19T00:07:56Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。