論文の概要: Assessing the Quality of AI-Generated Exams: A Large-Scale Field Study
- arxiv url: http://arxiv.org/abs/2508.08314v1
- Date: Sat, 09 Aug 2025 01:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.166966
- Title: Assessing the Quality of AI-Generated Exams: A Large-Scale Field Study
- Title(参考訳): AI生成エキシビタムの品質を評価する - 大規模フィールドスタディ
- Authors: Calvin Isley, Joshua Gilbert, Evangelos Kassos, Michaela Kocher, Allen Nie, Emma Brunskill, Ben Domingue, Jake Hofman, Joscha Legewie, Teddy Svoronos, Charlotte Tuminelli, Sharad Goel,
- Abstract要約: 大規模言語モデル(LLM)は、従来の教育と学習の方法に挑戦する。
有望な応用の1つは、特定のコースの内容に合わせてカスタマイズされた試験の生成である。
- 参考スコア(独自算出の注目度): 18.104664166381877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) challenge conventional methods of teaching and learning, they present an exciting opportunity to improve efficiency and scale high-quality instruction. One promising application is the generation of customized exams, tailored to specific course content. There has been significant recent excitement on automatically generating questions using artificial intelligence, but also comparatively little work evaluating the psychometric quality of these items in real-world educational settings. Filling this gap is an important step toward understanding generative AI's role in effective test design. In this study, we introduce and evaluate an iterative refinement strategy for question generation, repeatedly producing, assessing, and improving questions through cycles of LLM-generated critique and revision. We evaluate the quality of these AI-generated questions in a large-scale field study involving 91 classes -- covering computer science, mathematics, chemistry, and more -- in dozens of colleges across the United States, comprising nearly 1700 students. Our analysis, based on item response theory (IRT), suggests that for students in our sample the AI-generated questions performed comparably to expert-created questions designed for standardized exams. Our results illustrate the power of AI to make high-quality assessments more readily available, benefiting both teachers and students.
- Abstract(参考訳): 大規模言語モデル(LLM)は、従来の教育と学習の手法に挑戦する一方で、効率を改善し、高品質な教育を拡大するエキサイティングな機会を提供する。
有望な応用の1つは、特定のコースの内容に合わせてカスタマイズされた試験の生成である。
人工知能を使って質問を自動的に生成することには、最近の大きな興奮があるが、実際の教育環境では、これらの項目の心理測定的品質を評価する仕事も比較的少ない。
このギャップを埋めることは、効率的なテスト設計における生成AIの役割を理解するための重要なステップである。
本研究では, LLM生成批判と改訂のサイクルを通じて, 質問生成, 繰り返し生成, 評価, 改善のための反復的改善戦略を導入, 評価する。
約1700人の学生からなる米国中の数十の大学において、コンピューターサイエンス、数学、化学などを含む91のクラスを対象とする大規模なフィールドスタディにおいて、これらのAI生成質問の品質を評価した。
項目応答理論(IRT)に基づく分析の結果,AIによる質問は,標準化試験用に考案された専門家による質問に相容れないことが示唆された。
この結果から,AIが質の高い評価をより容易に行えるようにし,教師と学生の両方に利益をもたらすことが示唆された。
関連論文リスト
- Challenges for AI in Multimodal STEM Assessments: a Human-AI Comparison [15.814479753448412]
生成AIシステムは急速に進歩し、テキストベースのタスク以外の推論を可能にするマルチモーダル入力機能を備えている。
教育においては、これらの進歩は評価設計と質問応答に影響を与え、機会と課題の両方を提示する。
本研究は,これらの特徴が学生に比較して,生成的AI性能にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-07-02T12:06:46Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - Automated Educational Question Generation at Different Bloom's Skill Levels using Large Language Models: Strategies and Evaluation [0.0]
我々は,5つの最先端の大規模言語モデルを用いて,認知レベルの多様で高品質な質問を生成する能力について検討した。
以上の結果から,LLmsは適切な情報によって認知レベルが異なる関連性のある,高品質な教育的質問を生じさせる可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-08T11:56:57Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。