論文の概要: Assessing the Quality of Multiple-Choice Questions Using GPT-4 and
Rule-Based Methods
- arxiv url: http://arxiv.org/abs/2307.08161v1
- Date: Sun, 16 Jul 2023 22:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:12:24.607553
- Title: Assessing the Quality of Multiple-Choice Questions Using GPT-4 and
Rule-Based Methods
- Title(参考訳): gpt-4と規則に基づくマルチチョイス質問の品質評価
- Authors: Steven Moore, Huy A. Nguyen, Tianying Chen, John Stamper
- Abstract要約: 項目記述欠陥のある複数選択質問は、学生の学習に悪影響を及ぼす可能性がある。
これらの欠陥は、しばしば学生が生成した質問に現れており、その品質と教室での使い勝手を評価することは困難である。
- 参考スコア(独自算出の注目度): 1.5293427903448022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice questions with item-writing flaws can negatively impact
student learning and skew analytics. These flaws are often present in
student-generated questions, making it difficult to assess their quality and
suitability for classroom usage. Existing methods for evaluating
multiple-choice questions often focus on machine readability metrics, without
considering their intended use within course materials and their pedagogical
implications. In this study, we compared the performance of a rule-based method
we developed to a machine-learning based method utilizing GPT-4 for the task of
automatically assessing multiple-choice questions based on 19 common
item-writing flaws. By analyzing 200 student-generated questions from four
different subject areas, we found that the rule-based method correctly detected
91% of the flaws identified by human annotators, as compared to 79% by GPT-4.
We demonstrated the effectiveness of the two methods in identifying common
item-writing flaws present in the student-generated questions across different
subject areas. The rule-based method can accurately and efficiently evaluate
multiple-choice questions from multiple domains, outperforming GPT-4 and going
beyond existing metrics that do not account for the educational use of such
questions. Finally, we discuss the potential for using these automated methods
to improve the quality of questions based on the identified flaws.
- Abstract(参考訳): 項目書きの欠陥のある複数項目の質問は、学生の学習やスキュー分析に悪影響を及ぼす可能性がある。
これらの欠陥は、しばしば学生が生成した質問に現れており、その品質と教室の利用適性を評価することは困難である。
既存のマルチチョイス質問の評価方法は、コース材料内の使用意図や教育的意味を考慮せずに、しばしば機械可読性指標に焦点をあてる。
本研究では, GPT-4を用いたルールベース手法の性能を, 19の共通項目記述欠陥に基づく複数項目質問の自動評価に応用した機械学習手法と比較した。
4つの被験者領域から200人の学生が生成した質問を分析した結果,GPT-4の79%と比較して,ルールベースの手法が人間のアノテータによって同定された欠陥の91%を正しく検出できた。
そこで本研究では,学生が生み出した質問に共通する項目書きの欠陥を識別する2つの方法の有効性を実証した。
ルールベースの手法では、複数のドメインからの複数選択質問を正確かつ効率的に評価し、GPT-4を上回り、そのような質問の教育的利用を考慮しない既存の指標を超えることができる。
最後に,これらの自動手法を用いて,特定された欠陥に基づいて質問の質を向上させる可能性について考察する。
関連論文リスト
- Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with
a Focus on Candidate Response Distribution [38.58190457533888]
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに,これらの自動システムは,過度な障害検出などの実運用前評価タスクに利用できることを示す。
論文 参考訳(メタデータ) (2023-06-22T17:13:08Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - Option Tracing: Beyond Correctness Analysis in Knowledge Tracing [3.1798318618973362]
既存の知識追跡手法を拡張して,学生が選択した質問の正確な選択肢を予測する。
2つの大規模学生応答データセットにおけるオプション追跡手法の性能を定量的に評価した。
論文 参考訳(メタデータ) (2021-04-19T04:28:34Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z) - How to Evaluate Solutions in Pareto-based Search-Based Software
Engineering? A Critical Review and Methodological Guidance [9.040916182677963]
本稿では,検索ベースSEにおける多目的最適化の品質評価について検討する。
SBSEにおける品質評価指標/手法と一般的な状況の詳細な分析を行う。
異なるSBSEシナリオにおける評価手法の選択と利用のための方法論的ガイダンスをコーデレートする。
論文 参考訳(メタデータ) (2020-02-20T22:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。