論文の概要: Math Multiple Choice Question Generation via Human-Large Language Model Collaboration
- arxiv url: http://arxiv.org/abs/2405.00864v1
- Date: Wed, 1 May 2024 20:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:33:31.746373
- Title: Math Multiple Choice Question Generation via Human-Large Language Model Collaboration
- Title(参考訳): ヒューマンラージ言語モデルによる複数問合せ生成
- Authors: Jaewook Lee, Digory Smith, Simon Woodhead, Andrew Lan,
- Abstract要約: 複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。
大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。
本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
- 参考スコア(独自算出の注目度): 5.081508251092439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple choice questions (MCQs) are a popular method for evaluating students' knowledge due to their efficiency in administration and grading. Crafting high-quality math MCQs is a labor-intensive process that requires educators to formulate precise stems and plausible distractors. Recent advances in large language models (LLMs) have sparked interest in automating MCQ creation, but challenges persist in ensuring mathematical accuracy and addressing student errors. This paper introduces a prototype tool designed to facilitate collaboration between LLMs and educators for streamlining the math MCQ generation process. We conduct a pilot study involving math educators to investigate how the tool can help them simplify the process of crafting high-quality math MCQs. We found that while LLMs can generate well-formulated question stems, their ability to generate distractors that capture common student errors and misconceptions is limited. Nevertheless, a human-AI collaboration has the potential to enhance the efficiency and effectiveness of MCQ generation.
- Abstract(参考訳): 複数選択質問 (MCQ) は, 管理や成績評価の効率化により, 生徒の知識を評価できる一般的な方法である。
高品質な数学のMCQの作成は、教育者が正確な茎ともっともらしい散逸を定式化する必要がある労働集約的なプロセスである。
大規模言語モデル(LLM)の最近の進歩はMCQ生成の自動化への関心を喚起しているが、数学的精度の確保と生徒の誤りへの対処には課題が続いている。
本稿では,数学MCQ生成プロセスの合理化を目的としたLLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
本研究では,高品質な数学MCQの作成プロセスの簡略化を支援するために,数学教育者を含むパイロットスタディを実施している。
その結果, LLM は質問ステムを生成することができるが, 学生の誤りや誤認識を捉えた気晴らしを生成できる能力は限られていることが判明した。
それでも、人間とAIのコラボレーションは、MCQ生成の効率性と有効性を高める可能性がある。
関連論文リスト
- ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。
提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。
数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文 参考訳(メタデータ) (2024-06-27T17:37:31Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank [44.04217284677347]
本稿では,過剰生成・ランク化により生成したトラクタの品質を向上する新しい手法を提案する。
我々のランキングモデルでは、人間が作成したものよりも、人間の権威のあるものの方が好まれるが、人間の権威のあるトラクタとのアライメントが向上する。
論文 参考訳(メタデータ) (2024-04-19T00:25:44Z) - Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models [40.50115385623107]
マルチチョイス質問(MCQ)は、評価や実践において、管理しやすく、格付けし、信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。
MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。
現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。
論文 参考訳(メタデータ) (2024-04-02T17:31:58Z) - Retrieval-augmented Generation to Improve Math Question-Answering:
Trade-offs Between Groundedness and Human Preference [0.0]
我々は、高品質なオープンソースの数学教科書からコンテンツを検索して利用し、実際の学生の質問に対する応答を生成するプロンプトを設計する。
マルチ条件サーベイを実施し,中学代数学と幾何学QAのためのRAGシステムの有効性を評価した。
我々は、RAGは応答品質を向上させることができるが、数学のQAシステムの設計者は、学生が好む応答と、特定の教育資源に密接に適合する応答とのトレードオフを検討する必要があると論じる。
論文 参考訳(メタデータ) (2023-10-04T22:09:28Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。