論文の概要: A systematic comparison of Large Language Models for automated assignment assessment in programming education: Exploring the importance of architecture and vendor
- arxiv url: http://arxiv.org/abs/2509.26483v1
- Date: Tue, 30 Sep 2025 16:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.619862
- Title: A systematic comparison of Large Language Models for automated assignment assessment in programming education: Exploring the importance of architecture and vendor
- Title(参考訳): プログラミング教育における課題自動評価のための大規模言語モデルの体系的比較--アーキテクチャとベンダーの重要性を探る
- Authors: Marcin Jukiewicz,
- Abstract要約: 本研究は,現代大規模言語モデル (LLM) のプログラム代入の自動段階付けにおいて,大規模・横比較を行った最初の事例である。
モデル間でのグルーピングパターンの一貫性とクラスタリングについて,グルーピングの分布,平均スコアと変動率の違いから分析した。
すべてのモデルでは、クラス内相関係数によって測定された内部一致度が高く、モデルコンセンサスは人間教師の学級との適度な一致しか示さなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the first large-scale, side-by-side comparison of contemporary Large Language Models (LLMs) in the automated grading of programming assignments. Drawing on over 6,000 student submissions collected across four years of an introductory programming course, we systematically analysed the distribution of grades, differences in mean scores and variability reflecting stricter or more lenient grading, and the consistency and clustering of grading patterns across models. Eighteen publicly available models were evaluated: Anthropic (claude-3-5-haiku, claude-opus-4-1, claude-sonnet-4); Deepseek (deepseek-chat, deepseek-reasoner); Google (gemini-2.0-flash-lite, gemini-2.0-flash, gemini-2.5-flash-lite, gemini-2.5-flash, gemini-2.5-pro); and OpenAI (gpt-4.1-mini, gpt-4.1-nano, gpt-4.1, gpt-4o-mini, gpt-4o, gpt-5-mini, gpt-5-nano, gpt-5). Statistical tests, correlation and clustering analyses revealed clear, systematic differences between and within vendor families, with "mini" and "nano" variants consistently underperforming their full-scale counterparts. All models displayed high internal agreement, measured by the intraclass correlation coefficient, with the model consensus but only moderate agreement with human teachers' grades, indicating a persistent gap between automated and human assessment. These findings underscore that the choice of model for educational deployment is not neutral and should be guided by pedagogical goals, transparent reporting of evaluation metrics, and ongoing human oversight to ensure accuracy, fairness and relevance.
- Abstract(参考訳): 本研究では,現代大規模言語モデル (LLM) のプログラム代入の自動階調における大規模・横比較について述べる。
導入プログラミングコースの4年間に6000人以上の学生が集まった結果をもとに, 学級の分布, 厳密な成績を反映した平均得点と変動率の違い, モデル間の階調パターンの整合性とクラスタリングを系統的に分析した。
Anthropic (claude-3-5-haiku, claude-opus-4-1, claude-sonnet-4), Deepseek (deepseek-chat, deepseek-reasoner), Google (gemini-2.0-flash-lite, gemini-2.0-flash, gemini-2.5-flash-lite, gemini-2.5-flash, gemini-2.5-pro), OpenAI (gpt-4.1-mini, gpt-4.1-nano, gpt-4.1, gpt-4.o-mini, gpt-4.o, gpt-5-mini, gpt-5-mini, gpt-5-nano, gpt-5.gpt-5)。
統計的テスト、相関分析、クラスタリング分析により、ベンダーファミリーと内外の明確な系統的な違いが明らかとなり、"mini"と"nano"の変種は、フルスケールの亜種を一貫して上回る結果となった。
全てのモデルでは、クラス内相関係数によって測定された内的一致度が高く、モデルコンセンサスは、人間の教師の学級との適度な一致しか示さず、自動化された評価と人的評価の相違が持続的であった。
これらの結果は、教育展開のためのモデルの選択は中立的ではなく、教育目標、評価指標の透明な報告、そして正確性、公正性、妥当性を保証するために進行中の人間の監視によってガイドされるべきである、ということを示している。
関連論文リスト
- Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models [5.584522240405349]
本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
論文 参考訳(メタデータ) (2025-08-27T18:54:32Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text [0.0]
本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-01-16T18:06:22Z) - Nonverbal Immediacy Analysis in Education: A Multimodal Computational Model [2.5249064981269287]
モデルはRGB教室のビデオから教師の非言語即時性(NVI)を評価する。
ジェスチャー強度回帰器は0.84,知覚距離回帰器0.55,NVIモデル0.44の相関性を示した。
論文 参考訳(メタデータ) (2024-07-24T12:09:07Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。