論文の概要: Using Large Language Models to Assess Teachers' Pedagogical Content Knowledge
- arxiv url: http://arxiv.org/abs/2505.19266v1
- Date: Sun, 25 May 2025 18:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.020184
- Title: Using Large Language Models to Assess Teachers' Pedagogical Content Knowledge
- Title(参考訳): 大規模言語モデルを用いた教師の教育的内容知識の評価
- Authors: Yaxuan Yang, Shiyu Wang, Xiaoming Zhai,
- Abstract要約: 本研究では,大規模言語モデルが,機械学習(ML)やヒューマンレーダと類似した構成不関連分散(CIV)を導入したかどうかを検討する。
一般化線形混合モデル (GLMM) を用いて, 分散成分とレーダレベルのスコアリングパターンを3つのスコアリング源で比較した。
その結果、シナリオレベルの分散はタスク間で最小であり、レーダ関連因子はCIVに大きく寄与した。
- 参考スコア(独自算出の注目度): 3.2489371952043213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing teachers' pedagogical content knowledge (PCK) through performance-based tasks is both time and effort-consuming. While large language models (LLMs) offer new opportunities for efficient automatic scoring, little is known about whether LLMs introduce construct-irrelevant variance (CIV) in ways similar to or different from traditional machine learning (ML) and human raters. This study examines three sources of CIV -- scenario variability, rater severity, and rater sensitivity to scenario -- in the context of video-based constructed-response tasks targeting two PCK sub-constructs: analyzing student thinking and evaluating teacher responsiveness. Using generalized linear mixed models (GLMMs), we compared variance components and rater-level scoring patterns across three scoring sources: human raters, supervised ML, and LLM. Results indicate that scenario-level variance was minimal across tasks, while rater-related factors contributed substantially to CIV, especially in the more interpretive Task II. The ML model was the most severe and least sensitive rater, whereas the LLM was the most lenient. These findings suggest that the LLM contributes to scoring efficiency while also introducing CIV as human raters do, yet with varying levels of contribution compared to supervised ML. Implications for rater training, automated scoring design, and future research on model interpretability are discussed.
- Abstract(参考訳): 教員の教育コンテンツ知識(PCK)をパフォーマンスベースのタスクを通じて評価することは、時間と労力の両方を消費する。
大規模言語モデル(LLM)は、効率的な自動スコアリングの新たな機会を提供するが、LLMが従来の機械学習(ML)やヒューマンレーダと似た方法で構成非関連分散(CIV)を導入するかどうかについては、ほとんど分かっていない。
本研究は,2つのPCKサブコンストラクタを対象としたビデオベースの構成応答タスクの文脈において,CIVの3つの情報源(シナリオ変動性,レーダ重大度,シナリオに対するレーダ感度)について検討し,学生の思考と教師の応答性を評価する。
一般化線形混合モデル (GLMM) を用いて, 評価源であるヒトラッカー, 教師付きML, LLMの分散成分とレーダレベルのスコアリングパターンを比較した。
その結果、シナリオレベルの分散はタスク間で最小であり、レーダ関連因子はCIV、特により解釈的なタスクIIに大きく寄与した。
MLモデルは最も重く、最も敏感で、LSMは最も寛大であった。
これらの結果は,LSMが評価効率の向上に寄与する一方で,CIVをヒトのラベラーとして導入する一方で,教師付きMLと比較して,様々なレベルの貢献が可能であることを示唆している。
本稿では,レーダ学習,自動スコアリング設計,モデル解釈可能性に関する今後の研究について論じる。
関連論文リスト
- Evaluating Explanations Through LLMs: Beyond Traditional User Studies [7.377398767507683]
我々は,7つの大言語モデル(LLM)を用いた人間参加者を再現し,反事実的・因果的説明を比較検討したユーザスタディを再現する。
以上の結果から, (i) LLMは, 原研究の結論のほとんどを再現でき, (ii) 異なるLLMは, 結果のアライメントレベルが異なること, (iii) LLMメモリや出力変動性などの実験的要因がヒトの反応のアライメントに影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T11:31:52Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Analyzing Large Language Models for Classroom Discussion Assessment [0.8194411391152481]
本研究では,2つの大規模言語モデル(LLM)の評価性能が,タスクの定式化,文脈長,少数例の3つの要因とどのように相互作用するかを検討する。
その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。
予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。
論文 参考訳(メタデータ) (2024-06-12T22:43:38Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning [37.22349652230841]
大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニング例を条件にすることで、コンテキスト内学習(ICL)を可能にする。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。