論文の概要: MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline
- arxiv url: http://arxiv.org/abs/2401.08190v1
- Date: Tue, 16 Jan 2024 08:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:51:10.521961
- Title: MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline
- Title(参考訳): MARIO: MAth Reasoning with Code Interpreter Output -- 再現可能なパイプライン
- Authors: Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan
- Abstract要約: 大規模言語モデル(LLM)は、自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の汎用人工知能に到達するまでには、橋渡しのギャップが残っている。
我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、数学的推論を効果的にモデル化する上での課題を提示していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
- 参考スコア(独自算出の注目度): 12.186691561822256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have seen considerable advancements in natural
language understanding tasks, yet there remains a gap to bridge before
attaining true artificial general intelligence, especially concerning
shortcomings in mathematical reasoning capabilities. We postulate that the
inherent nature of LLM training, which focuses on predicting probabilities of
next token, presents challenges in effectively modeling mathematical reasoning
that demands exact calculations, both from data-driven and theoretical
standpoints. In this paper, we address this challenge by enriching the data
landscape and introducing a novel math dataset, enhanced with a capability to
utilize a Python code interpreter. This dataset is derived from GSM8K and MATH
and has been further refined through a combination of GPT-4 annotations, human
review, and self-training processes, where the errors in the original GSM8K
training set have been fixed. Additionally, we propose a tentative, easily
replicable protocol for the fine-tuning of math-specific LLMs, which has led to
a significant improvement in the performance of a 7B-parameter LLM on the GSM8K
and MATH datasets. We are committed to advancing the field of mathematical
reasoning in LLMs and, to that end, we have made the model checkpoints and will
make the dataset publicly available. We hope this will facilitate further
research and development within the community.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の人工知能に到達する前には、特に数学的推論能力の欠点に関して橋渡しのギャップが残っている。
我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、データ駆動と理論の両方の観点から正確な計算を必要とする数学的推論を効果的にモデル化する上での課題を提起する。
本稿では,データランドスケープを豊かにし,pythonコードインタプリタを活用した新しい数学データセットを導入することで,この課題に対処する。
このデータセットはGSM8KとMATHから派生したもので、オリジナルのGSM8Kトレーニングセットのエラーが修正されたGPT-4アノテーション、ヒューマンレビュー、自己学習プロセスの組み合わせによってさらに洗練されている。
さらに,GSM8KおよびMATHデータセット上での 7B パラメータ LLM の性能向上に寄与する,数学固有の LLM の微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
LLMにおける数学的推論の分野を推し進めることにコミットしており、そのためにモデルチェックポイントを作成し、データセットを公開します。
これがコミュニティ内のさらなる研究と開発を促進することを願っています。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。
本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。
次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文 参考訳(メタデータ) (2024-07-16T04:34:18Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning [13.11991777772918]
大規模言語モデル(LLM)は、数学推論タスクの創発的な能力を示している。
本稿では,教師付きデータの一般的なデータ戦略を探求し,数学推論能力の最適化と拡張を支援することを目的とする。
論文 参考訳(メタデータ) (2024-02-23T17:38:43Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。