論文の概要: LLM-Driven Rubric-Based Assessment of Algebraic Competence in Multi-Stage Block Coding Tasks with Design and Field Evaluation
- arxiv url: http://arxiv.org/abs/2510.06253v1
- Date: Sat, 04 Oct 2025 01:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.06161
- Title: LLM-Driven Rubric-Based Assessment of Algebraic Competence in Multi-Stage Block Coding Tasks with Design and Field Evaluation
- Title(参考訳): LLMによる多段ブロック符号化作業における代数的能力の評価とフィールド評価
- Authors: Yong Oh Lee, Byeonghun Bang, Sejun Oh,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いたルーブリックに基づく評価フレームワークの提案と評価を行う。
数学教育の専門家によって設計された問題集合は、各問題セグメントを予め定義された5つのルーリック次元に整列させる。
この研究は学習者の自己評価と専門家の評価を統合し、システムのアウトプットをベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As online education platforms continue to expand, there is a growing need for assessment methods that not only measure answer accuracy but also capture the depth of students' cognitive processes in alignment with curriculum objectives. This study proposes and evaluates a rubric-based assessment framework powered by a large language model (LLM) for measuring algebraic competence, real-world-context block coding tasks. The problem set, designed by mathematics education experts, aligns each problem segment with five predefined rubric dimensions, enabling the LLM to assess both correctness and quality of students' problem-solving processes. The system was implemented on an online platform that records all intermediate responses and employs the LLM for rubric-aligned achievement evaluation. To examine the practical effectiveness of the proposed framework, we conducted a field study involving 42 middle school students engaged in multi-stage quadratic equation tasks with block coding. The study integrated learner self-assessments and expert ratings to benchmark the system's outputs. The LLM-based rubric evaluation showed strong agreement with expert judgments and consistently produced rubric-aligned, process-oriented feedback. These results demonstrate both the validity and scalability of incorporating LLM-driven rubric assessment into online mathematics and STEM education platforms.
- Abstract(参考訳): オンライン教育プラットフォームが拡大を続けるにつれ、回答の精度を計測するだけでなく、カリキュラムの目的に合わせて生徒の認知過程の深さを捉える評価方法の必要性が高まっている。
本研究では,大規模言語モデル(LLM)をベースとした,代数的能力,実世界のコンテキスト・ブロックコーディングタスクの計測のためのルーブリックベースアセスメントフレームワークを提案し,評価する。
数学教育の専門家によって設計された問題セットは、各問題セグメントを5つの予め定義されたルーリック次元に整合させ、LLMは生徒の問題解決プロセスの正確性と品質の両方を評価することができる。
このシステムは,すべての中間応答を記録するオンラインプラットフォーム上に実装され,ルーリック対応の達成評価にLLMを使用している。
提案手法の有効性を検討するため,42人の中学生を対象に,ブロック符号化を用いた多段階二次方程式タスクを実践するフィールドスタディを行った。
この研究は学習者の自己評価と専門家の評価を統合し、システムのアウトプットをベンチマークした。
LLMに基づくルーリック評価は、専門家の判断と強く一致し、ルーリックに整合したプロセス指向のフィードバックを一貫して生成した。
これらの結果は,LLMによるルーリック評価をオンライン数学とSTEM教育プラットフォームに組み込むことの有効性とスケーラビリティの両立を実証した。
関連論文リスト
- AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field [12.465017512854475]
大規模言語モデル(LLM)は、アーキテクチャ、エンジニアリング、建設(AEC)分野において採用が増えている。
本稿では,AEC領域における現在のLLMの強度と限界を定量化するベンチマークであるAECBenchを確立する。
ベンチマークでは、23の代表的なタスクを5段階の認知指向評価フレームワークで定義している。
論文 参考訳(メタデータ) (2025-09-23T08:09:58Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。