論文の概要: A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in
Programming Education
- arxiv url: http://arxiv.org/abs/2312.03173v1
- Date: Tue, 5 Dec 2023 22:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:41:25.392743
- Title: A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in
Programming Education
- Title(参考訳): プログラミング教育におけるAI生成(GPT-4)と人為的MCQの比較研究
- Authors: Jacob Doughty, Zipiao Wan, Anishka Bompelli, Jubahed Qayum, Taozhi
Wang, Juran Zhang, Yujia Zheng, Aidan Doyle, Pragnya Sridhar, Arav Agarwal,
Christopher Bogart, Eric Keylor, Can Kultur, Jaromir Savelka, Majd Sakr
- Abstract要約: 我々は,高等教育におけるPythonプログラミングクラスから,特定の学習目標(LO)に適合したマルチチョイス質問(MCQ)を生成するGPT-4の能力について分析した。
GPT-4は明確な言語でMCQを生成でき、1つの正しい選択と高品質なイントラクタを生成できることがわかった。
- 参考スコア(独自算出の注目度): 5.104551615607713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a constant need for educators to develop and maintain effective
up-to-date assessments. While there is a growing body of research in computing
education on utilizing large language models (LLMs) in generation and
engagement with coding exercises, the use of LLMs for generating programming
MCQs has not been extensively explored. We analyzed the capability of GPT-4 to
produce multiple-choice questions (MCQs) aligned with specific learning
objectives (LOs) from Python programming classes in higher education.
Specifically, we developed an LLM-powered (GPT-4) system for generation of MCQs
from high-level course context and module-level LOs. We evaluated 651
LLM-generated and 449 human-crafted MCQs aligned to 246 LOs from 6 Python
courses. We found that GPT-4 was capable of producing MCQs with clear language,
a single correct choice, and high-quality distractors. We also observed that
the generated MCQs appeared to be well-aligned with the LOs. Our findings can
be leveraged by educators wishing to take advantage of the state-of-the-art
generative models to support MCQ authoring efforts.
- Abstract(参考訳): 教育者は、常に最新の評価を開発し、維持する必要がある。
大規模言語モデル(LLM)の世代別利用とコーディング演習への関与について,コンピュータ教育における研究機関が増えているが,プログラミングMCQの生成にはLLMの利用が広く研究されていない。
我々は,高等教育におけるPythonプログラミングクラスから,特定の学習目標(LO)に適合した複数選択質問(MCQ)を生成するGPT-4の能力について分析した。
具体的には,高次コースコンテキストとモジュールレベルLOからMCQを生成するためのLCM(GPT-4)システムを開発した。
我々は6つのPythonコースから246 LOに適合する651 LLMと449の人造MCQを評価した。
GPT-4は明瞭な言語でMCQを生成でき、1つの正しい選択と高品質なイントラクタを実現できることがわかった。
また, 生成したMCQはLOと良好に一致していることがわかった。
本研究の成果は,MCQ作成を支援する最先端の生成モデルを活用したい教育者が活用できる。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。
大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。
本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文 参考訳(メタデータ) (2024-05-01T20:53:13Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Exploring and Characterizing Large Language Models For Embedded System
Development and Debugging [10.967443876391611]
大規模言語モデル (LLM) は、コードを生成する際、顕著な能力を示しているが、組み込みシステム用のソフトウェアを開発する能力は研究されていない。
我々は,組込みシステム開発におけるLLMの能力と限界を評価するためのオープンソースフレームワークを開発した。
この発見を利用して、人間のプログラマがこれらのツールとどのように相互作用するかを研究し、組み込みシステムを構築するためのヒューマンAIベースのソフトウェアエンジニアリングワークフローを開発する。
論文 参考訳(メタデータ) (2023-07-07T20:14:22Z) - Harnessing LLMs in Curricular Design: Using GPT-4 to Support Authoring
of Learning Objectives [0.0]
高品質学習目標(LO)を自動生成する生成事前学習変圧器(GPT-4)の性能評価を行った。
LOは、知識とスキルを学習者がコースに参加することによって獲得することを意図している。
我々は,Bloomの分類学の行動動詞から始まるような,特定のベストプラクティスに従って生成されたLOを,高度化のレベルに関して分析した。
論文 参考訳(メタデータ) (2023-06-30T08:15:18Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。