論文の概要: Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?
- arxiv url: http://arxiv.org/abs/2506.09796v1
- Date: Wed, 11 Jun 2025 14:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.057912
- Title: Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?
- Title(参考訳): LLMは教育評価において心理的にプラウザブルな反応を与えるか?
- Authors: Andreas Säuberli, Diego Frassinelli, Barbara Plank,
- Abstract要約: テスト受験者が教育評価の項目にどう答えるかを知ることは、テスト開発に不可欠である。
大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。
- 参考スコア(独自算出の注目度): 24.31027563947265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowing how test takers answer items in educational assessments is essential for test development, to evaluate item quality, and to improve test validity. However, this process usually requires extensive pilot studies with human participants. If large language models (LLMs) exhibit human-like response behavior to test items, this could open up the possibility of using them as pilot participants to accelerate test development. In this paper, we evaluate the human-likeness or psychometric plausibility of responses from 18 instruction-tuned LLMs with two publicly available datasets of multiple-choice test items across three subjects: reading, U.S. history, and economics. Our methodology builds on two theoretical frameworks from psychometrics which are commonly used in educational assessment, classical test theory and item response theory. The results show that while larger models are excessively confident, their response distributions can be more human-like when calibrated with temperature scaling. In addition, we find that LLMs tend to correlate better with humans in reading comprehension items compared to other subjects. However, the correlations are not very strong overall, indicating that LLMs should not be used for piloting educational assessments in a zero-shot setting.
- Abstract(参考訳): 受験者が教育評価の項目にどう答えるかを知ることは, テスト開発, 項目品質の評価, テスト妥当性の向上に不可欠である。
しかしながら、このプロセスは通常、ヒトの参加者との広範なパイロット研究を必要とする。
大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。
本稿では,18の教科学習 LLM と3つの科目(読解,米国史,経済学)を対象に,複数の選択項目のデータセットを用いて,人間の類似性や心理測定的応答の妥当性を評価した。
本手法は, 教育評価, 古典的テスト理論, 項目応答理論の2つの理論的枠組みを基礎にしている。
その結果、より大きなモデルでは過度に自信が持たれるが、温度スケーリングを調整した場合、応答分布はより人間らしくなることが示された。
また, LLMは, 他者と比較して, 理解項目の読解において人間と相関する傾向にあることがわかった。
しかし, 相関性はあまり強くないため, ゼロショット環境での教育評価のパイロット化にLSMを使用するべきではない。
関連論文リスト
- Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。