論文の概要: Large Language Models for Mathematicians
- arxiv url: http://arxiv.org/abs/2312.04556v1
- Date: Thu, 7 Dec 2023 18:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:20:17.683038
- Title: Large Language Models for Mathematicians
- Title(参考訳): 数学者のための大規模言語モデル
- Authors: Simon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz
- Abstract要約: 大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
- 参考スコア(独自算出の注目度): 58.196955111156676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as ChatGPT have received immense interest
for their general-purpose language understanding and, in particular, their
ability to generate high-quality text or computer code. For many professions,
LLMs represent an invaluable tool that can speed up and improve the quality of
work. In this note, we discuss to what extent they can aid professional
mathematicians. We first provide a mathematical description of the transformer
model used in all modern language models. Based on recent studies, we then
outline best practices and potential issues and report on the mathematical
abilities of language models. Finally, we shed light on the potential of LMMs
to change how mathematicians work.
- Abstract(参考訳): chatgptのような大規模言語モデル(llm)は、その汎用言語理解や、特に高品質なテキストやコンピュータコードを生成する能力に大きな関心を集めている。
多くの職業において、llmは仕事の質をスピードアップし改善できる貴重なツールです。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
まず、全ての現代言語モデルで使用されるトランスフォーマーモデルの数学的記述を提供する。
最近の研究に基づいて、ベストプラクティスと潜在的な問題を概説し、言語モデルの数学的能力について報告する。
最後に、数学者の働き方を変えるためにLMMの可能性に光を当てた。
関連論文リスト
- MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Large Language Models [0.0]
これらの講義は、数学や物理学の背景を持つ読者向けに書かれたもので、簡単な歴史と芸術の現状について調査する。
次に、LLMの動作方法と、テキスト中の次の単語を予測するためにトレーニングされたモデルが、インテリジェンスを表示する他のタスクを実行できる、という現在のアイデアについて調べる。
論文 参考訳(メタデータ) (2023-07-11T20:21:02Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。