論文の概要: Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms
- arxiv url: http://arxiv.org/abs/2506.04822v1
- Date: Thu, 05 Jun 2025 09:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.63869
- Title: Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms
- Title(参考訳): インドネシアの教室における学生自動評価のためのビジョンランゲージと大規模言語モデルの評価
- Authors: Nurul Aisyah, Muhammad Dehan Al Kautsar, Arif Hidayat, Raqib Chowdhury, Fajri Koto,
- Abstract要約: 本研究は,インドネシアの6校の4年生を対象に,646人の受験者を対象に,最先端のVLMと複数のLDMの性能評価を行った。
以上の結果から,VLMは学生の筆跡の正確な認識に苦慮し,下流のLSMグレーディングにおける誤りの伝播につながることが示唆された。
- 参考スコア(独自算出の注目度): 5.076445852481039
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although vision-language and large language models (VLM and LLM) offer promising opportunities for AI-driven educational assessment, their effectiveness in real-world classroom settings, particularly in underrepresented educational contexts, remains underexplored. In this study, we evaluated the performance of a state-of-the-art VLM and several LLMs on 646 handwritten exam responses from grade 4 students in six Indonesian schools, covering two subjects: Mathematics and English. These sheets contain more than 14K student answers that span multiple choice, short answer, and essay questions. Assessment tasks include grading these responses and generating personalized feedback. Our findings show that the VLM often struggles to accurately recognize student handwriting, leading to error propagation in downstream LLM grading. Nevertheless, LLM-generated feedback retains some utility, even when derived from imperfect input, although limitations in personalization and contextual relevance persist.
- Abstract(参考訳): 視覚言語および大規模言語モデル(VLMとLLM)は、AIによる教育評価に有望な機会を提供するが、現実世界の教室環境、特に表現不足の教育状況において、それらの効果はいまだ検討されていない。
本研究では,インドネシアの6校の小学校4年生を対象に,646名の受験者を対象に,最先端のVLMと数名のLCMの性能を評価し,数学と英語の2科目について検討した。
これらのシートには、複数の選択、短い回答、エッセイの質問にまたがる14万以上の学生の回答が含まれている。
評価タスクには、これらのレスポンスのグレードとパーソナライズされたフィードバックの生成が含まれる。
以上の結果から,VLMは学生の筆跡の正確な認識に苦慮し,下流のLSMグレーディングにおける誤りの伝播につながることが示唆された。
それでも、LLMの生成したフィードバックは、パーソナライズやコンテキスト関連性に制限があるにもかかわらず、不完全な入力から派生した場合でも、いくつかの有用性を維持している。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。
多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文 参考訳(メタデータ) (2025-04-01T09:55:23Z) - Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。
この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-19T20:39:12Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。