Fugu-MT 論文翻訳(概要): Large Language Models for Mathematicians

論文の概要: Large Language Models for Mathematicians

arxiv url: http://arxiv.org/abs/2312.04556v2
Date: Tue, 2 Apr 2024 14:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 12:03:39.723478
Title: Large Language Models for Mathematicians
Title（参考訳）: 数学者のための大規模言語モデル
Authors: Simon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz,
Abstract要約: 大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。本稿では,プロの数学者をどの程度支援できるかについて論じる。
参考スコア（独自算出の注目度）: 53.27302720305432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) such as ChatGPT have received immense interest for their general-purpose language understanding and, in particular, their ability to generate high-quality text or computer code. For many professions, LLMs represent an invaluable tool that can speed up and improve the quality of work. In this note, we discuss to what extent they can aid professional mathematicians. We first provide a mathematical description of the transformer model used in all modern language models. Based on recent studies, we then outline best practices and potential issues and report on the mathematical abilities of language models. Finally, we shed light on the potential of LLMs to change how mathematicians work.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、汎用言語理解、特に高品質のテキストやコンピュータコードを生成する能力に大きな関心を集めている。多くの専門職にとって、LLMは、作業のスピードアップと品質向上を可能にする、貴重なツールである。本稿では,プロの数学者をどの程度支援できるかについて論じる。まず、すべての現代言語モデルで使用されるトランスモデルを数学的に記述する。最近の研究に基づいて、ベストプラクティスと潜在的な問題について概説し、言語モデルの数学的能力について報告する。最後に、数学者の働き方を変えるため、LLMの可能性について光を当てた。

関連論文リスト

MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文参考訳（メタデータ） (2024-02-27T05:50:35Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
Large Language Models [0.0]
これらの講義は、数学や物理学の背景を持つ読者向けに書かれたもので、簡単な歴史と芸術の現状について調査する。次に、LLMの動作方法と、テキスト中の次の単語を予測するためにトレーニングされたモデルが、インテリジェンスを表示する他のタスクを実行できる、という現在のアイデアについて調べる。
論文参考訳（メタデータ） (2023-07-11T20:21:02Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Automatically Generating CS Learning Materials with Large Language Models [4.526618922750769]
大きな言語モデル(LLM)は、ソフトウェア開発者が自然言語のプロンプトに基づいてコードを生成することを可能にする。 LLMは、インストラクターが学習材料をスケールするのを手助けしながら、学生が新しい方法でコードと対話することを可能にする。 LLMはまた、学術的完全性、カリキュラム設計、ソフトウェア工学のキャリアに新しい意味を導入している。
論文参考訳（メタデータ） (2022-12-09T20:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。