論文の概要: Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students' (Mis)Understanding Is Hinted
- arxiv url: http://arxiv.org/abs/2505.05815v1
- Date: Fri, 09 May 2025 06:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.173363
- Title: Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students' (Mis)Understanding Is Hinted
- Title(参考訳): 学生が誰なのか教えろ: GPTは、学生(ミス)が隠れているときに、複数の質問を正当に生成できる
- Authors: Machi Shimmei, Masaki Uto, Yuichiroh Matsubayashi, Kentaro Inui, Aditi Mallavarapu, Noboru Matsuda,
- Abstract要約: 本研究の主な目的は、事前学習された大規模言語モデルを用いて、多目的質問(MCQ)を生成する革新的なプロンプト技術であるAnaQuestを開発し、評価することである。
選択項目は、複雑な概念に関する文レベルの主張である。
定式化段階では,学生は自由テキストで対象概念に対するオープンな質問に回答する。要約的評価では,これらの回答を分析し,正しいアサーションと間違ったアサーションを生成する。
- 参考スコア(独自算出の注目度): 16.427059593208607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary goal of this study is to develop and evaluate an innovative prompting technique, AnaQuest, for generating multiple-choice questions (MCQs) using a pre-trained large language model. In AnaQuest, the choice items are sentence-level assertions about complex concepts. The technique integrates formative and summative assessments. In the formative phase, students answer open-ended questions for target concepts in free text. For summative assessment, AnaQuest analyzes these responses to generate both correct and incorrect assertions. To evaluate the validity of the generated MCQs, Item Response Theory (IRT) was applied to compare item characteristics between MCQs generated by AnaQuest, a baseline ChatGPT prompt, and human-crafted items. An empirical study found that expert instructors rated MCQs generated by both AI models to be as valid as those created by human instructors. However, IRT-based analysis revealed that AnaQuest-generated questions - particularly those with incorrect assertions (foils) - more closely resembled human-crafted items in terms of difficulty and discrimination than those produced by ChatGPT.
- Abstract(参考訳): 本研究の主な目的は、事前学習された大規模言語モデルを用いて、多目的質問(MCQ)を生成する革新的なプロンプト技術であるAnaQuestを開発し、評価することである。
AnaQuestでは、選択項目は複雑な概念に関する文レベルのアサーションである。
この手法は形式的および要約的な評価を統合する。
フォーマティブフェーズでは、学生は自由テキストでターゲット概念に対するオープンエンドの質問に答える。
要約評価では、AnaQuestはこれらの応答を分析し、正しいアサーションと間違ったアサーションの両方を生成する。
生成したMCQの妥当性を評価するために,AnaQuestが生成したMCQ,ベースラインChatGPTプロンプト,人造品の項目特性を比較するために,項目応答理論(IRT)を適用した。
実験的な研究によると、専門家のインストラクターは、両方のAIモデルによって生成されたMCQを、人間のインストラクターが作成したものと同じくらい有効であると評価した。
しかし、IRT ベースの分析により、AnaQuest が生成した質問(特に不正確な主張(翼)を持つ質問)は、ChatGPT が生成した質問よりも難易度と差別性の点で人造品によく似ていることが明らかになった。
関連論文リスト
- Automatic question generation for propositional logical equivalences [6.221146613622175]
そこで我々は,各学生に対して適切な質問を生成できる手法を開発し,実装する。
従来の研究では、妥当性、ユーザ定義の困難さ、パーソナライズされた問題生成を含む、教育におけるAQGフレームワークについて研究されてきた。
我々の新しいAQGアプローチは、一年生のコンピュータサイエンス学生にとってコアコースである離散数学に論理的等価性問題をもたらす。
論文 参考訳(メタデータ) (2024-05-09T02:44:42Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Retrieval-augmented Generation to Improve Math Question-Answering:
Trade-offs Between Groundedness and Human Preference [0.0]
我々は、高品質なオープンソースの数学教科書からコンテンツを検索して利用し、実際の学生の質問に対する応答を生成するプロンプトを設計する。
マルチ条件サーベイを実施し,中学代数学と幾何学QAのためのRAGシステムの有効性を評価した。
我々は、RAGは応答品質を向上させることができるが、数学のQAシステムの設計者は、学生が好む応答と、特定の教育資源に密接に適合する応答とのトレードオフを検討する必要があると論じる。
論文 参考訳(メタデータ) (2023-10-04T22:09:28Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Connecting Humanities and Social Sciences: Applying Language and Speech
Technology to Online Panel Surveys [2.0646127669654835]
オランダのパネル調査において,言語と音声技術のオープンエンド質問への適用について検討した。
実験波では、回答者は音声やキーボードを使ってオープンな質問に答えることができた。
本稿では,ASRシステムが生成した誤りを報告し,これらの誤りが下流解析に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-21T10:52:15Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。