論文の概要: AlphaMath Almost Zero: process Supervision without process
- arxiv url: http://arxiv.org/abs/2405.03553v2
- Date: Thu, 23 May 2024 05:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:11:11.837961
- Title: AlphaMath Almost Zero: process Supervision without process
- Title(参考訳): AlphaMath almost Zero: Process Supervision without process
- Authors: Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan,
- Abstract要約: 大規模言語モデル(LLM)は、複数の推論ステップを必要とする複雑な問題に悩まされる。
我々はモンテカルロ木探索(MCTS)フレームワークを利用することで、プロセスアノテーション(人間やGPTから)の必要性を回避できる革新的なアプローチを導入する。
提案手法はポリシーと価値モデルを反復的に訓練し,LLMの能力を活用している。
- 参考スコア(独自算出の注目度): 6.318873143509028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have substantially enhanced their mathematical reasoning abilities. However, these models still struggle with complex problems that require multiple reasoning steps, frequently leading to logical or numerical errors. While numerical mistakes can be largely addressed by integrating a code interpreter, identifying logical errors within intermediate steps is more challenging. Moreover, manually annotating these steps for training is not only expensive but also labor-intensive, requiring the expertise of professional annotators. In our study, we introduce an innovative approach that bypasses the need for process annotations (from human or GPTs) by utilizing the Monte Carlo Tree Search (MCTS) framework. This technique automatically generates both the process supervision and the step-level evaluation signals. Our method iteratively trains the policy and value models, leveraging the capabilities of a well-pretrained LLM to progressively enhance its mathematical reasoning skills. Furthermore, we propose an efficient inference strategy-step-level beam search, where the value model is crafted to assist the policy model (i.e., LLM) in navigating more effective reasoning paths, rather than solely relying on prior probabilities. The experimental results on both in-domain and out-of-domain datasets demonstrate that even without GPT-4 or human-annotated process supervision, our AlphaMath framework achieves comparable or superior results to previous state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、数学的推論能力を大幅に向上させてきた。
しかし、これらのモデルは、複数の推論ステップを必要とする複雑な問題に悩まされ、しばしば論理的あるいは数値的な誤りにつながる。
数値的なミスはコードインタプリタを統合することで対処できるが、中間ステップで論理的なエラーを特定することはより難しい。
さらに、これらのトレーニングのステップを手作業でアノテートすることは、コストだけでなく、労働集約的なものであり、プロのアノテータの専門知識を必要とする。
本研究では,モンテカルロ木探索(MCTS)フレームワークを利用することで,プロセスアノテーション(人やGPTから)の必要性を回避できる革新的な手法を提案する。
この技術はプロセス監視とステップレベルの評価信号の両方を自動的に生成する。
提案手法はポリシーと価値モデルを反復的に訓練し,よく訓練されたLLMの能力を活用して,数学的推論スキルを徐々に強化する。
さらに,従来の確率のみに依存するのではなく,より効果的な推論経路をナビゲートする政策モデル(LLM)を支援するために,効率的な推論戦略-ステップレベルのビームサーチを提案する。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
関連論文リスト
- Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - Mamo: a Mathematical Modeling Benchmark with Solvers [14.04286044600141]
従来の結果指向評価を超越した新しいベンチマークであるMamoを紹介します。
最終的な解決策の正しさよりも、LCMが実行しているプロセスに焦点を合わせることで、Mamoは新たな評価パラダイムを開拓した。
論文 参考訳(メタデータ) (2024-05-21T18:29:54Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Towards Model-informed Precision Dosing with Expert-in-the-loop Machine
Learning [0.0]
モデル学習ループに人的専門家を取り入れることで、モデル学習を加速し、解釈可能性を向上させるMLフレームワークを検討する。
本稿では,データアノテーションのコストが高い学習問題に対処することを目的とした,新たなヒューマン・イン・ザ・ループMLフレームワークを提案する。
精度測定への応用により,本手法はデータから解釈可能なルールを学習し,専門家の作業負荷を低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-28T03:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。