論文の概要: Does Multiple Choice Have a Future in the Age of Generative AI? A Posttest-only RCT
- arxiv url: http://arxiv.org/abs/2412.10267v1
- Date: Fri, 13 Dec 2024 16:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:03.884101
- Title: Does Multiple Choice Have a Future in the Age of Generative AI? A Posttest-only RCT
- Title(参考訳): 複数の選択は、生成AIの時代に未来を持つか? ポストテストのみのRTT
- Authors: Danielle R. Thomas, Conrad Borchers, Sanjit Kakarla, Jionghao Lin, Shambhavi Bhushan, Boyuan Guo, Erin Gatz, Kenneth R. Koedinger,
- Abstract要約: 効果的な学習ツールとしてのマルチチョイス質問(MCQ)の役割は過去の研究で議論されてきた。
本研究は,学習におけるオープン応答型質問に対するMCQの有効性を評価する。
テスト後の条件間では有意な学習差は認められなかったが,教官の指導に要した時間は大幅に短縮された。
- 参考スコア(独自算出の注目度): 2.116573423199236
- License:
- Abstract: The role of multiple-choice questions (MCQs) as effective learning tools has been debated in past research. While MCQs are widely used due to their ease in grading, open response questions are increasingly used for instruction, given advances in large language models (LLMs) for automated grading. This study evaluates MCQs effectiveness relative to open-response questions, both individually and in combination, on learning. These activities are embedded within six tutor lessons on advocacy. Using a posttest-only randomized control design, we compare the performance of 234 tutors (790 lesson completions) across three conditions: MCQ only, open response only, and a combination of both. We find no significant learning differences across conditions at posttest, but tutors in the MCQ condition took significantly less time to complete instruction. These findings suggest that MCQs are as effective, and more efficient, than open response tasks for learning when practice time is limited. To further enhance efficiency, we autograded open responses using GPT-4o and GPT-4-turbo. GPT models demonstrate proficiency for purposes of low-stakes assessment, though further research is needed for broader use. This study contributes a dataset of lesson log data, human annotation rubrics, and LLM prompts to promote transparency and reproducibility.
- Abstract(参考訳): 効果的な学習ツールとしてのマルチチョイス質問(MCQ)の役割は過去の研究で議論されてきた。
MCQはグレーディングの容易さから広く使われているが、自動グレーディングのための大規模言語モデル(LLM)の進歩を考えると、オープン応答質問は命令にますます使われている。
本研究は,学習におけるオープン応答型質問に対するMCQの有効性を評価する。
これらの活動は、アドボカシーに関する6つの教師の授業に埋め込まれている。
テスト後のみのランダム化制御設計を用いて、MCQのみ、オープン応答のみ、および2つの組み合わせの3つの条件で234人のチューター(790の授業完了)のパフォーマンスを比較した。
受験後, 学習条件の差は認められなかったが, MCQ条件のチューターは, 指導に要する時間を大幅に短縮した。
これらの結果から,MCQは訓練時間に制限がある場合の学習に対するオープン応答タスクよりも効果的で効率的であることが示唆された。
GPT-4o と GPT-4-turbo を用いた開域応答の高速化を行った。
GPTモデルは低吸気度評価のための習熟度を示すが、より広い用途のためにはさらなる研究が必要である。
本研究は, 授業ログデータのデータセット, 人間のアノテーションのぼかし, LLMによる透明性と再現性の向上に寄与する。
関連論文リスト
- AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - EEE-QA: Exploring Effective and Efficient Question-Answer
Representations [7.764629726412793]
疑問に答えるための現在のアプローチは、RoBERTaのような事前訓練された言語モデル(PLM)に依存している。
この研究は、既存の質問応答符号化規約に挑戦し、より微細な表現を探求する。
論文 参考訳(メタデータ) (2024-03-04T16:21:13Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。