Fugu-MT 論文翻訳(概要): Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models

論文の概要: Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models

arxiv url: http://arxiv.org/abs/2404.02124v3
Date: Thu, 18 Apr 2024 17:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 13:59:47.142669
Title: Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models
Title（参考訳）: 大規模言語モデルによる数学多重選択問題に対する自動ディトラクタ生成の探索
Authors: Wanyong Feng, Jaewook Lee, Hunter McNichols, Alexander Scarlatos, Digory Smith, Simon Woodhead, Nancy Otero Ornelas, Andrew Lan,
Abstract要約: マルチチョイス質問(MCQ)は、評価や実践において、管理しやすく、格付けし、信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。
参考スコア（独自算出の注目度）: 40.50115385623107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple-choice questions (MCQs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable format in assessments and practices. One of the most important aspects of MCQs is the distractors, i.e., incorrect options that are designed to target common errors or misconceptions among real students. To date, the task of crafting high-quality distractors largely remains a labor and time-intensive process for teachers and learning content designers, which has limited scalability. In this work, we study the task of automated distractor generation in the domain of math MCQs and explore a wide variety of large language model (LLM)-based approaches, from in-context learning to fine-tuning. We conduct extensive experiments using a real-world math MCQ dataset and find that although LLMs can generate some mathematically valid distractors, they are less adept at anticipating common errors or misconceptions among real students.
Abstract（参考訳）: 多重選択質問(MCQ)は、管理しやすく、格付けしやすく、評価や実践の信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。本研究では,数学MCQの領域における自動散逸器生成の課題について検討し,文脈内学習から微調整に至るまで,多種多様な大規模言語モデル(LLM)に基づくアプローチを探索する。実世界の数学MCQデータセットを用いて広範な実験を行い、LLMは数学的に有効な散逸器を生成できるが、実際の学生の間での一般的な誤りや誤解を予測できないことを発見した。

関連論文リスト

MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection [53.325457460187046]
これらの課題に対処するために設計された新しいMixture-of-Math-AgentフレームワークであるMathAgentを紹介する。 MathAgentはエラー検出を3つのフェーズに分解し、それぞれが特別なエージェントによって処理される。実世界の教育データに基づいてMathAgentを評価し,誤差ステップ同定の精度を約5%向上した。
論文参考訳（メタデータ） (2025-03-23T16:25:08Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文参考訳（メタデータ） (2024-05-01T20:53:13Z)
Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank [44.04217284677347]
本稿では,過剰生成・ランク化により生成したトラクタの品質を向上する新しい手法を提案する。我々のランキングモデルでは、人間が作成したものよりも、人間の権威のあるものの方が好まれるが、人間の権威のあるトラクタとのアライメントが向上する。
論文参考訳（メタデータ） (2024-04-19T00:25:44Z)
Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文参考訳（メタデータ） (2023-12-27T14:37:32Z)
Automated Distractor and Feedback Generation for Math Multiple-choice Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文参考訳（メタデータ） (2023-08-07T01:03:04Z)
Learning to Reuse Distractors to support Multiple Choice Question Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2022-10-25T12:48:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。