論文の概要: Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in
Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2312.08935v1
- Date: Thu, 14 Dec 2023 13:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:02:14.846834
- Title: Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in
Mathematical Reasoning
- Title(参考訳): 数学的推論におけるLLM用ラベルフリーステップバイステップ検証器
- Authors: Peiyi Wang and Lei Li and Zhihong Shao and R.X. Xu and Damai Dai and
Yifei Li and Deli Chen and Y.Wu and Zhifang Sui
- Abstract要約: 本稿では,TextbfMath-Shepherdという,革新的なプロセス指向の数学検証手法を提案する。
Math-Shepherd は LLM の数学問題における出力の各ステップに報酬スコアを割り当てる。
Math-Shepherd の指導により、オープンソースの LLM シリーズは例外的な性能を示した。
- 参考スコア(独自算出の注目度): 38.2345858590806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across
a wide range of tasks. However, even the most advanced open-source LLMs, such
as the LLaMA family models, still face challenges when it comes to accurately
solving complex multi-step mathematical problems. In this paper, we present an
innovative process-oriented math verifier called \textbf{Math-Shepherd}, which
assigns a reward score to each step of the LLM's outputs on math problems. The
training of Math-Shepherd is achieved using automatically constructed
process-wise supervision data, breaking the bottleneck of heavy reliance on
manual annotation in existing work. With the guidance of Math-Shepherd, a
series of open-source LLMs demonstrate exceptional performance. Among them,
DeepSeek 67B \citep{DeepSeek-llm} stands out by achieving accuracy rates of
93.3\% on the GSM8K dataset and 48.1\% on the MATH dataset, without external
enhancement such as tool usage. Our Math-Shepherd also outperforms the
self-consistency method and other existing verification models. We believe that
automatic process supervision holds significant potential for the future
evolution of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、LLaMAファミリーモデルのような最も先進的なオープンソース LLM でさえ、複雑な多段階数学的問題を正確に解決する上ではまだ課題に直面している。
本稿では, LLMの算数問題における出力の各ステップに報酬スコアを割り当てる, 革新的プロセス指向の算数検証器「textbf{Math-Shepherd}」を提案する。
自動構築されたプロセス単位での監督データを用いて数学シェファードの訓練を行い、既存の作業における手動アノテーションに重きを置くボトルネックを打ち破る。
Math-Shepherd の指導により、オープンソースの LLM シリーズは例外的な性能を示した。
このうち、DeepSeek 67B \citep{DeepSeek-llm} は GSM8K データセットで93.3\%、MATH データセットで48.1\% の精度をツール使用などの外部拡張なしで達成することで際立っている。
私たちのMath-Shepherdは自己整合性法や既存の検証モデルよりも優れています。
我々は,LLMの今後の発展に,自動プロセス監視が大きな可能性を秘めていると考えている。
関連論文リスト
- MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit [4.957099360745168]
大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
我々は,ピソン型計算機代数システム(CAS)をその数値精度に活用するだけでなく,オプションのLCMも組み込んだ総合的な数学的評価ツールキットを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:03:44Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization [56.24794149009814]
大規模言語モデル(LLM)を用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実証的に有効である。
1)データ拡張の戦略はより効果的か,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は、領域外の数学的推論タスクに一般化を動機付けることができるのか?
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。