Fugu-MT 論文翻訳(概要): An Empirical Study on Challenging Math Problem Solving with GPT-4

論文の概要: An Empirical Study on Challenging Math Problem Solving with GPT-4

arxiv url: http://arxiv.org/abs/2306.01337v2
Date: Thu, 8 Jun 2023 02:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 18:30:35.652146
Title: An Empirical Study on Challenging Math Problem Solving with GPT-4
Title（参考訳）: GPT-4を用いた数学問題の解法に関する実証的研究
Authors: Yiran Wu, Feiran Jia, Shaokun Zhang, Hangyu Li, Erkang Zhu, Yue Wang, Yin Tat Lee, Richard Peng, Qingyun Wu, and Chi Wang
Abstract要約: この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
参考スコア（独自算出の注目度）: 35.478654637361785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. While several prior works have investigated solving elementary mathematics using LLMs, this work explores the frontier of using GPT-4 for solving more complex and challenging math problems. We evaluate various ways of using GPT-4. Some of them are adapted from existing work, and one is MathChat, a conversational problem-solving framework newly proposed in this work. We perform the evaluation on difficult high school competition problems from the MATH dataset, which shows the advantage of the proposed conversational approach.
Abstract（参考訳）: 数学の問題に対処するために大規模言語モデル(llm)を採用することは興味深い研究であり、多くの科学や工学分野にわたる自然言語で表現される数学問題の豊富さを考慮する。 LLMを用いた基礎数学の解法について、いくつかの先行研究が検討されているが、より複雑で難解な数学問題の解法として GPT-4 を用いることのフロンティアについて検討している。我々はgpt-4の使用方法を評価する。いくつかは既存の仕事から適応したもので、そのひとつがmathchatという会話型問題解決フレームワークである。提案手法の利点を示すMATHデータセットを用いて,難解な高校競争問題の評価を行う。

関連論文リスト

Give me a hint: Can LLMs take a hint to solve math problems? [0.5742190785269342]
本稿では,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。また、敵のヒントに対する堅牢性をテストし、それらに対する感受性を示す。
論文参考訳（メタデータ） (2024-10-08T11:09:31Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文参考訳（メタデータ） (2024-07-01T01:56:28Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文参考訳（メタデータ） (2024-05-01T20:53:13Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Solving Math Word Problems by Combining Language Models With Symbolic Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文参考訳（メタデータ） (2023-04-16T04:16:06Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。