論文の概要: Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents
- arxiv url: http://arxiv.org/abs/2511.11772v1
- Date: Fri, 14 Nov 2025 09:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.299999
- Title: Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents
- Title(参考訳): 大規模言語モデルとロールベースフィードバックエージェントによる教育における等価反射評価のスケーリング
- Authors: Chenyu Zhang, Xiaohang Luo,
- Abstract要約: 形式的フィードバックは、学生学習の最も効果的な要因の1つである。
大規模または低リソースのコースでは、インストラクターは学生のリフレクションのレビューや応答に必要な時間、スタッフ、帯域幅を欠いていることが多い。
本稿では,5つの協調型ロールベースLLMエージェントを用いて学習者の反射をスコアリングする理論基底システムを提案する。
- 参考スコア(独自算出の注目度): 2.825140278227664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formative feedback is widely recognized as one of the most effective drivers of student learning, yet it remains difficult to implement equitably at scale. In large or low-resource courses, instructors often lack the time, staffing, and bandwidth required to review and respond to every student reflection, creating gaps in support precisely where learners would benefit most. This paper presents a theory-grounded system that uses five coordinated role-based LLM agents (Evaluator, Equity Monitor, Metacognitive Coach, Aggregator, and Reflexion Reviewer) to score learner reflections with a shared rubric and to generate short, bias-aware, learner-facing comments. The agents first produce structured rubric scores, then check for potentially biased or exclusionary language, add metacognitive prompts that invite students to think about their own thinking, and finally compose a concise feedback message of at most 120 words. The system includes simple fairness checks that compare scoring error across lower and higher scoring learners, enabling instructors to monitor and bound disparities in accuracy. We evaluate the pipeline in a 12-session AI literacy program with adult learners. In this setting, the system produces rubric scores that approach expert-level agreement, and trained graders rate the AI-generated comments as helpful, empathetic, and well aligned with instructional goals. Taken together, these results show that multi-agent LLM systems can deliver equitable, high-quality formative feedback at a scale and speed that would be impossible for human graders alone. More broadly, the work points toward a future where feedback-rich learning becomes feasible for any course size or context, advancing long-standing goals of equity, access, and instructional capacity in education.
- Abstract(参考訳): 形式的フィードバックは、学生学習の最も効果的な要因の1つとして広く認識されているが、等しく大規模に実施することは困難である。
大規模または低リソースのコースでは、インストラクターは学生の反射をレビューし、反応するのに必要となる時間、スタッフ、帯域幅を欠くことが多く、学習者が最も恩恵を受けるであろうサポートのギャップを生じさせる。
本稿では,5つの協調型ロールベースLLMエージェント(評価器,エクイティモニタ,メタ認知型コーチ,アグリゲータ,反射リフレクションレビュアー)を用いて,共有ルーリックを用いて学習者のリフレクションをスコアし,バイアス対応の短い学習者向けコメントを生成する。
エージェントはまず構造化されたルーリックスコアを生成し、バイアスのある言語や排他的言語をチェックし、メタ認知的なプロンプトを加えて、学生に自分の思考について考えさせ、最後に120語以上の簡潔なフィードバックメッセージを合成する。
このシステムには、低得点と高得点の学習者間でのスコアの誤差を比較する単純なフェアネスチェックが含まれており、インストラクターは精度の差をモニターし、バウンドすることができる。
成人学習者との12セッションAIリテラシープログラムにおいて,パイプラインの評価を行った。
この設定では、システムは専門家レベルの合意に近づいたルーリックスコアを生成し、訓練されたグレーダーはAIが生成したコメントを有益で共感的で、指導目標に順応していると評価する。
これらの結果から, マルチエージェントLLMシステムは, スケールと速度で, 同等かつ高品質な書式フィードバックを提供することができ, 人間の学年だけでは不可能であることを示す。
より広範に、この研究は、フィードバックに富んだ学習があらゆるコースサイズや文脈で実現可能になり、教育におけるエクイティ、アクセス、教育能力という長年の目標を推し進める未来を指している。
関連論文リスト
- Feedback Indicators: The Alignment between Llama and a Teacher in Language Learning [0.0]
フィードバックが構築される基盤として機能するため、まずは関連する指標を抽出することが不可欠である。
本研究では,大きな言語モデルであるLlama 3.1を用いて,学生の言語学習コースへの投稿から,そのような指標を抽出する初期段階について検討した。
その結果,予測外の指標と基準の組み合わせであっても,統計的に有意な相関が認められた。
論文 参考訳(メタデータ) (2025-08-15T09:59:22Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - CoTAL: Human-in-the-Loop Prompt Engineering for Generalizable Formative Assessment Scoring [2.249916681499244]
Chain-of-Thought Prompting + Active Learning (CoTAL) は、Evidence-Centered Design (ECD) に基づく形式的評価評価手法である。
以上の結果から,CoTALはGPT-4のドメイン間でのスコアリング性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T06:53:34Z) - "My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays [6.810086342993699]
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。
CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。
ユーザスタディを用いた500の批判的思考エッセイのケーススタディでは,CAELFが対話的フィードバックを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-09-11T17:59:01Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - PapagAI:Automated Feedback for Reflective Essays [48.4434976446053]
ドクティック理論をベースとして,ハイブリッドAIシステムとして実装された,初のオープンソース自動フィードバックツールを提案する。
本研究の主な目的は,学生の学習成果の向上と,講師の指導活動を補完することである。
論文 参考訳(メタデータ) (2023-07-10T11:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。