論文の概要: Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K--12 Science Instructional Materials
- arxiv url: http://arxiv.org/abs/2602.13243v1
- Date: Sat, 31 Jan 2026 04:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.583053
- Title: Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K--12 Science Instructional Materials
- Title(参考訳): 審査員の判断:高品質K--12理科教材のマルチLLM評価の人的検証
- Authors: Peng He, Zhaohui Li, Zeyuan Wang, Jinjun Xiong, Tingting Li,
- Abstract要約: 本研究の目的は,GenAIをベースとした教材デザインエージェントの設計原則に関する専門家の洞察を翻訳することである。
我々は意図的に、生命科学、物理科学、地球科学の12の高品質のカリキュラムを選定した。
評価項目9項目のEQuIPルーブリックを用いて,GPT-4o,Claude,Geminiに数値評価と各単位の有理書作成を促した。
2人の理科教育専門家が独立にすべてのアウトプットをレビューし、スコアと合理性の両方について合意(1)または不一致(0)をマークし、AI推論に関する質的な考察を提供した。
- 参考スコア(独自算出の注目度): 19.831484887538725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing high-quality, standards-aligned instructional materials for K--12 science is time-consuming and expertise-intensive. This study examines what human experts notice when reviewing AI-generated evaluations of such materials, aiming to translate their insights into design principles for a future GenAI-based instructional material design agent. We intentionally selected 12 high-quality curriculum units across life, physical, and earth sciences from validated programs such as OpenSciEd and Multiple Literacies in Project-based Learning. Using the EQuIP rubric with 9 evaluation items, we prompted GPT-4o, Claude, and Gemini to produce numerical ratings and written rationales for each unit, generating 648 evaluation outputs. Two science education experts independently reviewed all outputs, marking agreement (1) or disagreement (0) for both scores and rationales, and offering qualitative reflections on AI reasoning. This process surfaces patterns in where LLM judgments align with or diverge from expert perspectives, revealing reasoning strengths, gaps, and contextual nuances. These insights will directly inform the development of a domain-specific GenAI agent to support the design of high-quality instructional materials in K--12 science education.
- Abstract(参考訳): K-12科学のための高品質で標準に準拠した教材を設計することは、時間と専門性に重点を置いている。
本研究は,AIによる材料評価の見直しにおいて,人間の専門家がどのような注意を払っているかを考察し,今後のGenAIベースの教材デザインエージェントの設計原則への知見の翻訳を目的とする。
我々は、プロジェクトベースラーニングにおけるOpenSciEdやMultiple Literaciesなどの検証プログラムから、生命科学、物理科学、地球科学の12の高品質カリキュラムを意図的に選択した。
評価項目9項目のEQuIPルーブリックを用いて,GPT-4o,Claude,Geminiに数値評価と各単位の有理書作成を促し,評価出力を648。
2人の理科教育専門家が独立にすべてのアウトプットをレビューし、スコアと合理性の両方について合意(1)または不一致(0)をマークし、AI推論に関する質的な考察を提供した。
このプロセスは、LCMの判断が専門家の視点と一致しているか、あるいは相違するパターンを表面化し、推論の強さ、ギャップ、文脈的なニュアンスを明らかにします。
これらの知見は、K-12理科教育における高品質な教材設計を支援するために、ドメイン固有のGenAIエージェントの開発を直接的に通知する。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Assessing the Quality of AI-Generated Exams: A Large-Scale Field Study [18.104664166381877]
大規模言語モデル(LLM)は、従来の教育と学習の方法に挑戦する。
有望な応用の1つは、特定のコースの内容に合わせてカスタマイズされた試験の生成である。
論文 参考訳(メタデータ) (2025-08-09T01:20:53Z) - Connecting Feedback to Choice: Understanding Educator Preferences in GenAI vs. Human-Created Lesson Plans in K-12 Education -- A Comparative Analysis [11.204345070162592]
ジェネレーティブAI(GenAI)モデルは、教育応用のためにますます研究されている。
本研究は,人間のカリキュラム設計者が作成した授業計画,K-12コンテンツに基づく微調整 LLaMA-2-13b モデル,カスタマイズ GPT-4 モデルを比較した。
K-12数学教育者による大規模嗜好調査を用いて、選好が学級や教示要素によってどのように異なるかを検討する。
論文 参考訳(メタデータ) (2025-04-07T19:28:19Z) - AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models [3.092385483349516]
本稿では、AI審査員のレーティングが人間の専門家のレーティングと一致するかどうかを判断する厳密な統計枠組みを提案する。
この枠組みを,VLMに基づく4人の審査員を主要な設計基準で評価するケーススタディに適用する。
その結果,トップパフォーマンスのAI審査員は,一意性や描画品質に関する専門家レベルの合意を達成できることがわかった。
論文 参考訳(メタデータ) (2025-04-01T16:20:29Z) - Auto-Evaluation: A Critical Measure in Driving Improvements in Quality and Safety of AI-Generated Lesson Resources [2.0840194592130654]
オーク・ナショナル・アカデミー(Oak National Academy)は、イギリスの公共団体。
我々は,全国カリキュラム科目すべてを対象とした,約13,000のオープン教育リソース(OER)の総合カリキュラムを,専門家,人間教師が設計し,品質保証を行っている。
これにより、高品質のAIを活用した授業計画ツールであるAilaを構築するのに必要なコンテンツのコーパスが提供される。
論文 参考訳(メタデータ) (2025-01-23T11:35:23Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。