Fugu-MT 論文翻訳(概要): Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning

論文の概要: Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2312.08935v1
Date: Thu, 14 Dec 2023 13:41:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:02:14.846834
Title: Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning
Title（参考訳）: 数学的推論におけるLLM用ラベルフリーステップバイステップ検証器
Authors: Peiyi Wang and Lei Li and Zhihong Shao and R.X. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui
Abstract要約: 本稿では,TextbfMath-Shepherdという,革新的なプロセス指向の数学検証手法を提案する。 Math-Shepherd は LLM の数学問題における出力の各ステップに報酬スコアを割り当てる。 Math-Shepherd の指導により、オープンソースの LLM シリーズは例外的な性能を示した。
参考スコア（独自算出の注目度）: 38.2345858590806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks. However, even the most advanced open-source LLMs, such as the LLaMA family models, still face challenges when it comes to accurately solving complex multi-step mathematical problems. In this paper, we present an innovative process-oriented math verifier called \textbf{Math-Shepherd}, which assigns a reward score to each step of the LLM's outputs on math problems. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. With the guidance of Math-Shepherd, a series of open-source LLMs demonstrate exceptional performance. Among them, DeepSeek 67B \citep{DeepSeek-llm} stands out by achieving accuracy rates of 93.3\% on the GSM8K dataset and 48.1\% on the MATH dataset, without external enhancement such as tool usage. Our Math-Shepherd also outperforms the self-consistency method and other existing verification models. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。しかし、LLaMAファミリーモデルのような最も先進的なオープンソース LLM でさえ、複雑な多段階数学的問題を正確に解決する上ではまだ課題に直面している。本稿では, LLMの算数問題における出力の各ステップに報酬スコアを割り当てる, 革新的プロセス指向の算数検証器「textbf{Math-Shepherd}」を提案する。自動構築されたプロセス単位での監督データを用いて数学シェファードの訓練を行い、既存の作業における手動アノテーションに重きを置くボトルネックを打ち破る。 Math-Shepherd の指導により、オープンソースの LLM シリーズは例外的な性能を示した。このうち、DeepSeek 67B \citep{DeepSeek-llm} は GSM8K データセットで93.3\%、MATH データセットで48.1\% の精度をツール使用などの外部拡張なしで達成することで際立っている。私たちのMath-Shepherdは自己整合性法や既存の検証モデルよりも優れています。我々は,LLMの今後の発展に,自動プロセス監視が大きな可能性を秘めていると考えている。

関連論文リスト

Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning [29.97121243044881]
ステップレベル自動算数補正のための拡張学習(RL)に基づく大規模言語モデル(LLM)の強化手法,StepAMCを提案する。特に,テキスト分類タスクにおける段階的な自動算数補正をRL問題に変換し,LLMの推論能力を向上させる。
論文参考訳（メタデータ） (2025-03-24T08:28:34Z)
I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm [27.440693440296563]
大規模言語モデル(LLM)は大きな進歩を遂げているが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱う。 textbfIterative textbfSelf-EntextbfHanctextbfEmtextbfEnt textbfParadigmを紹介する。 I-SHEEPはQwenモデルとLlamaモデルの両方の容量を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-08-15T10:44:38Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-06T15:20:30Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文参考訳（メタデータ） (2023-10-09T08:18:58Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。