論文の概要: Small, Private Language Models as Teammates for Educational Assessment Design
- arxiv url: http://arxiv.org/abs/2605.15015v1
- Date: Thu, 14 May 2026 16:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.937507
- Title: Small, Private Language Models as Teammates for Educational Assessment Design
- Title(参考訳): 教育アセスメント設計のためのチームメイトとしての小型私的言語モデル
- Authors: Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu, Eleni Ilkou,
- Abstract要約: ジェネレーティブAIは、例えば、Large Language Models (LLMs)を通じて、教育設計タスクをますますサポートしている。
小言語モデル(SLM)は、プライバシーとリソース制限に対処するローカルな代替手段として登場した。
我々は,評価問題設計のためのSLMを比較し,ブルームの分類レベル全体にわたる生成品質を評価し,専門家による評価に対するモデルに基づく判断を評価する。
- 参考スコア(独自算出の注目度): 3.9739308910691835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI increasingly supports educational design tasks, e.g., through Large Language Models (LLMs), demonstrating the capability to design assessment questions that are aligned with pedagogical frameworks (e.g., Bloom's taxonomy). However, they often rely on subjective or limited evaluation methods; focus primarily on proprietary models; or rarely systematically examine generation, evaluation, or deployment constraints in real educational settings. Meanwhile, Small Language Models (SLMs) have emerged as local alternatives that better address privacy and resource limitations; yet their effectiveness for assessment tasks remains underexplored. To address this gap, we systematically compare LLMs and SLMs for assessment question design; evaluate generation quality across Bloom's taxonomy levels using reproducible, pedagogically grounded metrics; and further assess model-based judging against expert-informed evaluation by analyzing reliability and agreement patterns. Results show that SLMs achieve competitive performance across key pedagogically motivated quality dimensions while enabling local, privacy-sensitive deployment. However, model-based evaluations also exhibit systematic inconsistencies and bias relative to expert ratings. These findings provide evidence to posit language models as bounded assistants in assessment workflows; underscore the necessity of Human-in-the-Loop; and advance the automated educational question generation field by examining quality, reliability, and deployment-aware trade-offs.
- Abstract(参考訳): Generative AIは、例えば、Large Language Models (LLMs)を通じて、教育設計タスクをますますサポートし、教育的なフレームワーク(例えば、ブルームの分類学)と整合したアセスメント質問を設計する能力を示す。
しかし、それらはしばしば主観的あるいは限定的な評価手法に依存しており、主にプロプライエタリなモデルに焦点を当てている。
一方、Small Language Models (SLM) は、プライバシーとリソースの制限に対処するローカルな代替手段として登場した。
このギャップに対処するために,評価質問設計のためのLCMとSLMを体系的に比較し,再現性,教育学的に根ざした指標を用いてブルームの分類レベルにわたる生成品質を評価し,信頼性と合意パターンを分析して専門家による評価に対するモデルに基づく判断を評価する。
その結果、SLMは、ローカルでプライバシに敏感なデプロイメントを実現しつつ、重要な教育的モチベーションを生かした品質の面での競争的なパフォーマンスを実現していることがわかった。
しかし、モデルに基づく評価は、専門家の評価に対する体系的な矛盾と偏見も示している。
これらの知見は,言語モデルを評価ワークフローにおける有界アシスタントとして実証し,ヒューマン・イン・ザ・ループの必要性を強調し,品質,信頼性,デプロイメント・アウェア・トレードオフを検証し,自動的な学習質問生成分野を推し進める証拠となる。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。
これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。
また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T03:42:04Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。