論文の概要: GPT Can Solve Mathematical Problems Without a Calculator
- arxiv url: http://arxiv.org/abs/2309.03241v1
- Date: Wed, 6 Sep 2023 06:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:30:19.352297
- Title: GPT Can Solve Mathematical Problems Without a Calculator
- Title(参考訳): GPTは計算機なしで数学的問題を解くことができる
- Authors: Zhen Yang, Ming Ding, Qingsong Lv, Zhihuan Jiang, Zehai He, Yuyi Guo,
Jinfeng Bai, Jie Tang
- Abstract要約: 大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。
また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 24.114064917059565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Previous studies have typically assumed that large language models are unable
to accurately perform arithmetic operations, particularly multiplication of >8
digits, and operations involving decimals and fractions, without the use of
calculator tools. This paper aims to challenge this misconception. With
sufficient training data, a 2 billion-parameter language model can accurately
perform multi-digit arithmetic operations with almost 100% accuracy without
data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication
accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from
GLM-10B on a dataset with additional multi-step arithmetic operations and math
problems described in text, achieves similar performance to GPT-4 on a
5,000-samples Chinese math problem test set.
- Abstract(参考訳): 従来の研究では、大きな言語モデルは算術演算、特に8桁の乗算や十進数と分数を含む演算を計算機ツールを使わずに正確に行うことができないと推定されていた。
本稿ではこの誤解に挑戦することを目的とする。
十分なトレーニングデータを持つ20億パラメータの言語モデルでは、データの漏洩なしにほぼ100%の精度で、gpt-4(マルチ桁乗算精度はわずか4.3%)を大幅に上回って、正確にマルチ桁演算を実行できる。
また,マルチステップ演算やテキストに記述された数学問題を含むデータセットの glm-10b から微調整した mathglm が,5,000 例の中国数学問題テストセットで gpt-4 と同等の性能を実現することを実証した。
関連論文リスト
- Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks [27.020990219204343]
大規模言語モデル(LLM)はm桁乗算タスクによってn桁の最初の桁を正確かつ確実に予測することができる。
実際には LLM は m-digit 乗算によって n-digit の最後の桁を正しくあるいは確実に予測できないことが多い。
LLMが正しい高次桁の全てに条件付けされている場合、後者のタスクはより堅牢に解決できることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:34:39Z) - OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step [7.7168728919692855]
本稿では,1つの自己回帰的なステップで正確な算術を可能にするフレームワークを提案する。
我々は LLM の隠蔽状態を用いて演算を行う記号的アーキテクチャを制御する。
シンボルモデル(OccamLlama)としてOccamNetを用いたLlama 3の実装は,1つの算術演算において100%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-04T04:17:40Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Solving the multiplication problem of a large language model system
using a graph-based method [20.43440908151311]
ChatGPTには優れた自然言語処理能力があるが、算術問題を解くには不十分である。
我々は,人間のような数値演算をエミュレートするグラフベースの乗算アルゴリズムを開発した。
提案アルゴリズムは,1000,000個の乗算タスクに対して100%精度が得られた。
論文 参考訳(メタデータ) (2023-10-18T08:02:00Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - How well do Large Language Models perform in Arithmetic tasks? [25.638682874990206]
数学の単語問題に段階的に答えるチェーンオブ思考を含む、大きな言語モデルが出現した。
我々の知る限りでは、大規模言語モデルの算術能力を評価することに注力する作業はない。
本研究では,最新の大規模言語モデルをテストするための算術データセットMATH 401を提案する。
論文 参考訳(メタデータ) (2023-03-16T09:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。