論文の概要: Mathematical Capabilities of ChatGPT
- arxiv url: http://arxiv.org/abs/2301.13867v2
- Date: Thu, 20 Jul 2023 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 18:26:12.361566
- Title: Mathematical Capabilities of ChatGPT
- Title(参考訳): ChatGPTの数学的機能
- Authors: Simon Frieder, Luca Pinchetti, Alexis Chevalier, Ryan-Rhys Griffiths,
Tommaso Salvatori, Thomas Lukasiewicz, Philipp Christian Petersen, Julius
Berner
- Abstract要約: GHOSTSとminiGHOSTSの2つの新しいデータセットをリリースしています。
これらは、数学の研究者によって計算された最初の自然言語データセットである。
モデルを、詳細なパフォーマンス指標でベンチマークします。
- 参考スコア(独自算出の注目度): 35.71603158908465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the mathematical capabilities of two iterations of ChatGPT
(released 9-January-2023 and 30-January-2023) and of GPT-4 by testing them on
publicly available datasets, as well as hand-crafted ones, using a novel
methodology. In contrast to formal mathematics, where large databases of formal
proofs are available (e.g., the Lean Mathematical Library), current datasets of
natural-language mathematics, used to benchmark language models, either cover
only elementary mathematics or are very small. We address this by publicly
releasing two new datasets: GHOSTS and miniGHOSTS. These are the first
natural-language datasets curated by working researchers in mathematics that
(1) aim to cover graduate-level mathematics, (2) provide a holistic overview of
the mathematical capabilities of language models, and (3) distinguish multiple
dimensions of mathematical reasoning. These datasets also test whether ChatGPT
and GPT-4 can be helpful assistants to professional mathematicians by emulating
use cases that arise in the daily professional activities of mathematicians. We
benchmark the models on a range of fine-grained performance metrics. For
advanced mathematics, this is the most detailed evaluation effort to date. We
find that ChatGPT can be used most successfully as a mathematical assistant for
querying facts, acting as a mathematical search engine and knowledge base
interface. GPT-4 can additionally be used for undergraduate-level mathematics
but fails on graduate-level difficulty. Contrary to many positive reports in
the media about GPT-4 and ChatGPT's exam-solving abilities (a potential case of
selection bias), their overall mathematical performance is well below the level
of a graduate student. Hence, if your goal is to use ChatGPT to pass a
graduate-level math exam, you would be better off copying from your average
peer!
- Abstract(参考訳): 公開データセットと手作りデータセットを用いて,chatgpt (9- january-2023 および 30- january-2023) と gpt-4 の2つのイテレーションの数学的能力について,新しい方法論を用いて検証した。
形式的証明の大規模なデータベース(例えばリーン数学ライブラリ)が利用可能である形式数学とは対照的に、現在の自然言語数学のデータセットは言語モデルのベンチマークに使われ、初等数学のみをカバーするか、あるいは非常に小さい。
この問題に対処するため、GHOSTSとminiGHOSTSという2つの新しいデータセットを公開しています。
これらは、(1)大学院レベルの数学を対象とする数学研究者による最初の自然言語データセットであり、(2)言語モデルの数学的能力の全体像を提供し、(3)数学的推論の複数の次元を区別する。
これらのデータセットはまた、ChatGPTとGPT-4が数学者の日々の職業活動で発生するユースケースをエミュレートすることで、プロの数学者の補助となるかどうかを検証している。
モデルを、詳細なパフォーマンス指標でベンチマークします。
高度な数学では、これは今までで最も詳細な評価である。
この結果から,ChatGPTは数学的検索エンジンや知識ベースインタフェースとして機能し,事実を問合せするための数学的アシスタントとして最もうまく利用できることがわかった。
gpt-4は大学レベルの数学でも使えるが、大学院レベルの難易度では失敗する。
GPT-4とChatGPTの試験解決能力(選択バイアスの可能性)に関するメディアの多くの肯定的な報告とは対照的に、その全体的な数学的性能は大学院生のレベルよりかなり低い。
したがって、ChatGPTを卒業レベルの数学試験に合格させることが目標ならば、平均的な仲間からのコピーをオフにする方がよいでしょう。
関連論文リスト
- MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Math Agents: Computational Infrastructure, Mathematical Embedding, and
Genomics [0.0]
人間-AIチャット以外にも、大規模言語モデル(LLM)はプログラミング、アルゴリズム発見、定理証明に現れている。
本研究は「ムーアの数学法則」の新たなエントリとして数学エージェントと数学的埋め込みを紹介する。
プロジェクトは、情報システム生物学の老朽化問題に対処するために、数学エージェントと数学的埋め込みを使用することを目的としている。
論文 参考訳(メタデータ) (2023-07-04T20:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。