Fugu-MT 論文翻訳(概要): Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank

論文の概要: Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank

arxiv url: http://arxiv.org/abs/2405.05144v2
Date: Mon, 13 May 2024 18:10:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 18:22:42.296330
Title: Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank
Title（参考訳）: オーバージェネレーション・アンド・ランクによるマルチチョイス質問に対する自動ディトラクタ生成の改善
Authors: Alexander Scarlatos, Wanyong Feng, Digory Smith, Simon Woodhead, Andrew Lan,
Abstract要約: 本稿では,過剰生成・ランク化により生成したトラクタの品質を向上する新しい手法を提案する。我々のランキングモデルでは、人間が作成したものよりも、人間の権威のあるものの方が好まれるが、人間の権威のあるトラクタとのアライメントが向上する。
参考スコア（独自算出の注目度）: 44.04217284677347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple-choice questions (MCQs) are commonly used across all levels of math education since they can be deployed and graded at a large scale. A critical component of MCQs is the distractors, i.e., incorrect answers crafted to reflect student errors or misconceptions. Automatically generating them in math MCQs, e.g., with large language models, has been challenging. In this work, we propose a novel method to enhance the quality of generated distractors through overgenerate-and-rank, training a ranking model to predict how likely distractors are to be selected by real students. Experimental results on a real-world dataset and human evaluation with math teachers show that our ranking model increases alignment with human-authored distractors, although human-authored ones are still preferred over generated ones.
Abstract（参考訳）: 多重選択質問(MCQ)は、大規模に展開およびグレードできるため、数学教育のあらゆる段階にわたって一般的に使用される。 MCQの重要な構成要素は、学生の誤りや誤解を反映した誤った回答である。数学のMCQ、例えば大きな言語モデルでそれらを自動生成することは困難である。そこで本研究では,乱れ発生者の品質を過剰に生成・ランク化することで向上させる手法を提案し,実際の学生が乱れ発生者を選択する可能性を予測するためのランキングモデルを訓練する。実世界のデータセットと数学教師による人的評価の実験結果から、我々のランキングモデルが、人によるイントラクタとのアライメントを増加させていることが分かるが、人間によるイントラクタは、生成したデータよりも依然として好まれている。

関連論文リスト

DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文参考訳（メタデータ） (2024-05-01T20:53:13Z)
Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models [40.50115385623107]
マルチチョイス質問(MCQ)は、評価や実践において、管理しやすく、格付けし、信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。
論文参考訳（メタデータ） (2024-04-02T17:31:58Z)
Automated Distractor and Feedback Generation for Math Multiple-choice Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文参考訳（メタデータ） (2023-08-07T01:03:04Z)
MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文参考訳（メタデータ） (2023-05-23T21:44:56Z)
Learning to Reuse Distractors to support Multiple Choice Question Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2022-10-25T12:48:56Z)
The World is Not Binary: Learning to Rank with Grayscale Data for Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。 3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文参考訳（メタデータ） (2020-04-06T06:34:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。