論文の概要: An Empirical Study on Challenging Math Problem Solving with GPT-4
- arxiv url: http://arxiv.org/abs/2306.01337v2
- Date: Thu, 8 Jun 2023 02:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:30:35.652146
- Title: An Empirical Study on Challenging Math Problem Solving with GPT-4
- Title(参考訳): GPT-4を用いた数学問題の解法に関する実証的研究
- Authors: Yiran Wu, Feiran Jia, Shaokun Zhang, Hangyu Li, Erkang Zhu, Yue Wang,
Yin Tat Lee, Richard Peng, Qingyun Wu, and Chi Wang
- Abstract要約: この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。
本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。
我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
- 参考スコア(独自算出の注目度): 35.478654637361785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Employing Large Language Models (LLMs) to address mathematical problems is an
intriguing research endeavor, considering the abundance of math problems
expressed in natural language across numerous science and engineering fields.
While several prior works have investigated solving elementary mathematics
using LLMs, this work explores the frontier of using GPT-4 for solving more
complex and challenging math problems. We evaluate various ways of using GPT-4.
Some of them are adapted from existing work, and one is MathChat, a
conversational problem-solving framework newly proposed in this work. We
perform the evaluation on difficult high school competition problems from the
MATH dataset, which shows the advantage of the proposed conversational
approach.
- Abstract(参考訳): 数学の問題に対処するために大規模言語モデル(llm)を採用することは興味深い研究であり、多くの科学や工学分野にわたる自然言語で表現される数学問題の豊富さを考慮する。
LLMを用いた基礎数学の解法について、いくつかの先行研究が検討されているが、より複雑で難解な数学問題の解法として GPT-4 を用いることのフロンティアについて検討している。
我々はgpt-4の使用方法を評価する。
いくつかは既存の仕事から適応したもので、そのひとつがmathchatという会話型問題解決フレームワークである。
提案手法の利点を示すMATHデータセットを用いて,難解な高校競争問題の評価を行う。
関連論文リスト
- FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese
Large Language Models [47.560637703675816]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Large Language Models for Mathematical Reasoning: Progresses and
Challenges [16.87506134755434]
大規模言語モデル (LLM) は数学問題の自動解法を指向している。
この調査は4つの重要な次元に対処する試みである。
これは、この急速に発展する分野における現在の状況、成果、将来の課題に関する全体論的な視点を提供する。
論文 参考訳(メタデータ) (2024-01-31T20:26:32Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Solving Math Word Problems by Combining Language Models With Symbolic
Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。
本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文 参考訳(メタデータ) (2023-04-16T04:16:06Z) - Highlighting Named Entities in Input for Auto-Formulation of
Optimization Problems [0.0]
本稿では,線形プログラム語問題を数学的定式化に変換する手法を提案する。
入力に名前付きエンティティを活用し、これらのエンティティをハイライトするためにインプットを拡張します。
提案手法は,NL4Optコンペティションへの応募者の中で最も高い精度を実現し,生成トラックにおける第1位を確保した。
論文 参考訳(メタデータ) (2022-12-26T16:13:57Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。