Fugu-MT 論文翻訳(概要): ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions

論文の概要: ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions

arxiv url: http://arxiv.org/abs/2312.01661v2
Date: Wed, 28 Feb 2024 04:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 18:25:54.164884
Title: ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions
Title（参考訳）: 数学質問者としてのチャットGPT 大学前数学の質問生成におけるChatGPTの評価
Authors: Phuoc Pham Van Long, Duc Anh Vu, Nhat M. Hoang, Xuan Long Do, Anh Tuan Luu
Abstract要約: 大規模言語モデル (LLM) は論理的推論と算術的推論を含む多くのNLPタスクで優れている。我々の分析は、コンテキスト認識とコンテキスト認識の2つの主要な設定に分類される。われわれのクローリングの結果はTopicMathだ。これは大学以前の数学のカリキュラムを包括的で斬新なコレクションだ。
参考スコア（独自算出の注目度）: 20.261452062585985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical questioning is crucial for assessing students problem-solving skills. Since manually creating such questions requires substantial effort, automatic methods have been explored. Existing state-of-the-art models rely on fine-tuning strategies and struggle to generate questions that heavily involve multiple steps of logical and arithmetic reasoning. Meanwhile, large language models(LLMs) such as ChatGPT have excelled in many NLP tasks involving logical and arithmetic reasoning. Nonetheless, their applications in generating educational questions are underutilized, especially in the field of mathematics. To bridge this gap, we take the first step to conduct an in-depth analysis of ChatGPT in generating pre-university math questions. Our analysis is categorized into two main settings: context-aware and context-unaware. In the context-aware setting, we evaluate ChatGPT on existing math question-answering benchmarks covering elementary, secondary, and ternary classes. In the context-unaware setting, we evaluate ChatGPT in generating math questions for each lesson from pre-university math curriculums that we crawl. Our crawling results in TopicMath, a comprehensive and novel collection of pre-university math curriculums collected from 121 math topics and 428 lessons from elementary, secondary, and tertiary classes. Through this analysis, we aim to provide insight into the potential of ChatGPT as a math questioner.
Abstract（参考訳）: 数学的な質問は学生の問題解決スキルを評価するのに不可欠である。このような質問を手動で作成するにはかなりの労力を要するため、自動メソッドが検討されている。既存の最先端モデルは微調整戦略に依存しており、論理的および算術的推論の複数のステップを含む問題を生成するのに苦労している。一方、ChatGPTのような大規模言語モデル(LLM)は、論理的推論や算術的推論を含む多くのNLPタスクで優れている。それにもかかわらず、教育問題の生成におけるそれらの応用は、特に数学の分野では、未利用である。このギャップを埋めるために、我々はChatGPTの詳細な分析を行い、大学前数学の質問を生成する。分析は,コンテキスト認識とコンテキスト認識の2つに分類した。文脈認識環境では,初等・中等・第三級を対象とする既存の数学質問応答ベンチマークを用いてChatGPTを評価する。文脈を意識しない環境では、学習前の数学カリキュラムから各授業の数学質問を生成する際にChatGPTを評価する。初等・中等・第三等から121の数学科と428の科目から収集した,大学前の数学カリキュラムの包括的かつ斬新なコレクションである topicmath をクロールした。この分析を通じて,ChatGPTが数学質問者となる可能性について考察する。

関連論文リスト

On the robustness of ChatGPT in teaching Korean Mathematics [0.0]
ChatGPTは66.72%の精度で、586問中391問を正確に答えている。以上の結果から,ChatGPTの評価は教育理論やテストテッカーの視点と一致していることがわかった。今後の研究は言語バイアスに対処し、多言語にわたって精度を高めるべきである。
論文参考訳（メタデータ） (2025-02-17T15:31:27Z)
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.0608396919601493]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文参考訳（メタデータ） (2024-11-07T17:07:35Z)
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。 MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。 MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文参考訳（メタデータ） (2024-07-11T17:58:58Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。 FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文参考訳（メタデータ） (2024-03-12T15:32:39Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
ChatGPT may excel in States Medical Licensing Examination but falters in basic Linear Algebra [2.3204178451683264]
ChatGPTの出現は急速であり、特定の領域に肯定的な影響を示すが、その影響は普遍的に有利ではない。我々の分析は、数学教育におけるChatGPTの能力、特に基本的な線形代数を教えることに焦点を当てている。
論文参考訳（メタデータ） (2023-06-23T15:19:29Z)
Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination [0.0]
データセットには、知識(K)、理解(C)、応用(A)、高適用(H)の4つのレベルに分けられた250の質問が含まれている。この研究は、ChatGPTが指数関数や対数関数、幾何学的進行、算術的進行といった問題に対する回答を提供するのに大きく成功したことを発見した。 ChatGPTはSAT Mathの競争で70%ドル、VNHSGEの数学(58.8%)が続いた。
論文参考訳（メタデータ） (2023-06-10T02:01:02Z)
Towards a Holistic Understanding of Mathematical Questions with Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文参考訳（メタデータ） (2023-01-18T14:23:29Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)
A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.437319139670116]
質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
論文参考訳（メタデータ） (2021-12-31T18:57:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。