論文の概要: PEMUTA: Pedagogically-Enriched Multi-Granular Undergraduate Thesis Assessment
- arxiv url: http://arxiv.org/abs/2507.19556v1
- Date: Fri, 25 Jul 2025 06:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.659085
- Title: PEMUTA: Pedagogically-Enriched Multi-Granular Undergraduate Thesis Assessment
- Title(参考訳): PEMUTA:教育学的に充実した多官能的学部論文評価
- Authors: Jialu Zhang, Qingyang Sun, Qianyi Wang, Weiyi Zhang, Zunjie Xiao, Xiaoqing Zhang, Jianfeng Ren, Jiang Liu,
- Abstract要約: UGTE(Undergraduatethesis)は、学生の大学時代における累積的な学術的発展を評価するのに欠かせない役割を担っている。
大規模言語モデル(LLM)は先進的な教育知能を持つが、通常は1つの評価スコアしか持たない総合的な評価に重点を置いている。
我々は,多粒性UGTE評価のためのLLMからドメイン固有知識を活性化する,教育に富んだフレームワークPEMUTAのパイオニアである。
- 参考スコア(独自算出の注目度): 7.912100274675651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The undergraduate thesis (UGTE) plays an indispensable role in assessing a student's cumulative academic development throughout their college years. Although large language models (LLMs) have advanced education intelligence, they typically focus on holistic assessment with only one single evaluation score, but ignore the intricate nuances across multifaceted criteria, limiting their ability to reflect structural criteria, pedagogical objectives, and diverse academic competencies. Meanwhile, pedagogical theories have long informed manual UGTE evaluation through multi-dimensional assessment of cognitive development, disciplinary thinking, and academic performance, yet remain underutilized in automated settings. Motivated by the research gap, we pioneer PEMUTA, a pedagogically-enriched framework that effectively activates domain-specific knowledge from LLMs for multi-granular UGTE assessment. Guided by Vygotsky's theory and Bloom's Taxonomy, PEMUTA incorporates a hierarchical prompting scheme that evaluates UGTEs across six fine-grained dimensions: Structure, Logic, Originality, Writing, Proficiency, and Rigor (SLOWPR), followed by holistic synthesis. Two in-context learning techniques, \ie, few-shot prompting and role-play prompting, are also incorporated to further enhance alignment with expert judgments without fine-tuning. We curate a dataset of authentic UGTEs with expert-provided SLOWPR-aligned annotations to support multi-granular UGTE assessment. Extensive experiments demonstrate that PEMUTA achieves strong alignment with expert evaluations, and exhibits strong potential for fine-grained, pedagogically-informed UGTE evaluations.
- Abstract(参考訳): UGTE(Undergraduatethesis)は、学生の大学時代における累積的な学術的発展を評価するのに欠かせない役割を担っている。
大規模言語モデル(LLM)は先進的な教育知能を持つが、一般的には1つの評価スコアで総合的な評価に焦点をあてるが、多面的基準にまたがる複雑なニュアンスを無視し、構造的基準、教育的目的、多様な学術的能力の反映能力を制限する。
一方、教育学理論は、認知発達、学際的思考、学業成績の多次元的評価を通じて、長い間手動UGTE評価を伝えてきたが、自動設定では未利用のままである。
マルチグラニュラーUGTE評価のためのLLMからのドメイン固有知識を効果的に活性化する,教育的に強化されたフレームワークPEMUTAの先駆者となった。
ヴィゴツキーの理論とブルームの分類学によって導かれたPEMUTAは、構造、論理、原性、筆記、習熟、理性(SLOWPR)の6つの細粒度のUGTEを評価する階層的なプロンプトスキームを取り入れ、続いて全体論的合成を行う。
また,2つの文脈内学習手法である「iie」と「 few-shot prompting」と「 role-play prompting」も組み込まれ,微調整なしで専門家の判断との整合性を高めている。
多粒性UGTEアセスメントをサポートするために,専門家が提供するSLOWPR対応アノテーションを用いた認証UGTEのデータセットをキュレートする。
PEMUTAは専門家による評価と強い整合性を示し、微粒で教育学的にインフォームドされたUGTE評価に強い可能性を示す。
関連論文リスト
- ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - An Exploration of Higher Education Course Evaluation by Large Language Models [4.943165921136573]
人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
論文 参考訳(メタデータ) (2024-11-03T20:43:52Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments [0.22499166814992438]
経験豊富な教員チームでさえ、さまざまな視点に対応する総合的な評価を実現するのは難しいと感じています。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
論文 参考訳(メタデータ) (2024-05-28T01:07:06Z) - Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences [0.0]
この研究は、ITSのフィードバック生成に関する以前の研究を通し、AIEDの研究を慎重に支援するものである。
本論文の主な貢献は次のとおりである。 生成AIの時代におけるフィードバック生成において、より慎重で理論的に基礎付けられた手法を適用すること。
論文 参考訳(メタデータ) (2024-05-07T20:09:18Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。