論文の概要: Evaluating LLMs for Answering Student Questions in Introductory Programming Courses
- arxiv url: http://arxiv.org/abs/2603.28295v1
- Date: Mon, 30 Mar 2026 11:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.355105
- Title: Evaluating LLMs for Answering Student Questions in Introductory Programming Courses
- Title(参考訳): 入門科目における学生質問に対するLLMの評価
- Authors: Thomas Van Mullem, Bart Mesuere, Peter Dawyndt,
- Abstract要約: 本研究では,CS1プログラミングコースにおける学生の質問に答える上で,大規模言語モデルの安全かつ効果的に支援する能力について検討する。
従来のテキストマッチングメトリクスは、オープンエンドの教育応答を評価するには不十分であるため、独自のLCM-as-a-Judgeメトリックを開発し、検証した。
以上の結果から,ジェミニ3フラッシュなどのモデルが典型的な教育者応答の品質基準を超越し,専門家の教育基準と高い整合性が得られることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid emergence of Large Language Models (LLMs) presents both opportunities and challenges for programming education. While students increasingly use generative AI tools, direct access often hinders the learning process by providing complete solutions rather than pedagogical hints. Concurrently, educators face significant workload and scalability challenges when providing timely, personalized feedback. This study investigates the capabilities of LLMs to safely and effectively assist educators in answering student questions within a CS1 programming course. To achieve this, we established a rigorous, reproducible evaluation process by curating a benchmark dataset of 170 authentic student questions from a learning management system, paired with ground-truth responses authored by subject matter experts. Because traditional text-matching metrics are insufficient for evaluating open-ended educational responses, we developed and validated a custom LLM-as-a-Judge metric optimized for assessing pedagogical accuracy. Our findings demonstrate that models, such as Gemini 3 flash, can surpass the quality baseline of typical educator responses, achieving high alignment with expert pedagogical standards. To mitigate persistent risks like hallucination and ensure alignment with course-specific context, we advocate for a "teacher-in-the-loop" implementation. Finally, we abstract our methodology into a task-agnostic evaluation framework, advocating for a shift in the development of educational LLM tools from ad-hoc, post-deployment testing to a quantifiable, pre-deployment validation process.
- Abstract(参考訳): LLM(Large Language Models)の急速な台頭は、プログラミング教育の機会と課題の両方を提示している。
学生は、生成的AIツールをますます使っているが、直接アクセスは、教育的なヒントではなく、完全なソリューションを提供することによって、学習プロセスを妨げることが多い。
同時に、教育者はタイムリーでパーソナライズされたフィードバックを提供する際に、大きなワークロードとスケーラビリティの課題に直面します。
本研究では、CS1プログラミングコースにおける学生の質問に答える上で、LLMが安全かつ効果的に教育者を支援する能力について検討する。
そこで我々は,学習管理システムから170名の真正な学生質問のベンチマークデータセットをキュレートして,厳密で再現可能な評価プロセスを構築した。
従来のテキストマッチングのメトリクスは、オープンエンドの教育的応答を評価するには不十分であるため、教育的正確性を評価するために最適化されたカスタムLCM-as-a-Judgeメトリクスを開発し、検証した。
以上の結果から,ジェミニ3フラッシュのようなモデルが,典型的な教育者応答の品質基準を超越し,専門家の教育基準と高い整合性を達成できることが示唆された。
幻覚のような永続的なリスクを軽減し、コース固有のコンテキストとの整合性を確保するため、我々は"Teacher-in-the-loop"実装を提唱する。
最後に、我々の方法論をタスクに依存しない評価フレームワークに抽象化し、教育用LCMツールの開発をアドホック、ポストデプロイテストから定量化、事前デプロイ検証プロセスに移行することを提唱する。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Can Large Language Models Help Students Prove Software Correctness? An Experimental Study with Dafny [75.55915044740566]
コンピューティング教育の学生は、ChatGPTのような大きな言語モデル(LLM)をますます利用している。
本稿では,Dafny の形式的検証演習において,学生が LLM とどのように相互作用するかを検討する。
論文 参考訳(メタデータ) (2025-06-27T16:34:13Z) - A Practical Guide for Supporting Formative Assessment and Feedback Using Generative AI [0.0]
大規模言語モデル(LLM)は、学生、教師、同僚が「学習者が行く場所」、「学習者が現在いる場所」、「学習者を前進させる方法」を理解するのに役立つ。
本総説では,LSMを形式的評価に統合するための総合的な基盤を提供する。
論文 参考訳(メタデータ) (2025-05-29T12:52:43Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [20.08235311648655]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。