Fugu-MT 論文翻訳(概要): Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?

論文の概要: Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?

arxiv url: http://arxiv.org/abs/2506.09796v1
Date: Wed, 11 Jun 2025 14:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.057912
Title: Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?
Title（参考訳）: LLMは教育評価において心理的にプラウザブルな反応を与えるか?
Authors: Andreas Säuberli, Diego Frassinelli, Barbara Plank,
Abstract要約: テスト受験者が教育評価の項目にどう答えるかを知ることは、テスト開発に不可欠である。大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。
参考スコア（独自算出の注目度）: 24.31027563947265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowing how test takers answer items in educational assessments is essential for test development, to evaluate item quality, and to improve test validity. However, this process usually requires extensive pilot studies with human participants. If large language models (LLMs) exhibit human-like response behavior to test items, this could open up the possibility of using them as pilot participants to accelerate test development. In this paper, we evaluate the human-likeness or psychometric plausibility of responses from 18 instruction-tuned LLMs with two publicly available datasets of multiple-choice test items across three subjects: reading, U.S. history, and economics. Our methodology builds on two theoretical frameworks from psychometrics which are commonly used in educational assessment, classical test theory and item response theory. The results show that while larger models are excessively confident, their response distributions can be more human-like when calibrated with temperature scaling. In addition, we find that LLMs tend to correlate better with humans in reading comprehension items compared to other subjects. However, the correlations are not very strong overall, indicating that LLMs should not be used for piloting educational assessments in a zero-shot setting.
Abstract（参考訳）: 受験者が教育評価の項目にどう答えるかを知ることは, テスト開発, 項目品質の評価, テスト妥当性の向上に不可欠である。しかしながら、このプロセスは通常、ヒトの参加者との広範なパイロット研究を必要とする。大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。本稿では,18の教科学習 LLM と3つの科目(読解,米国史,経済学)を対象に,複数の選択項目のデータセットを用いて,人間の類似性や心理測定的応答の妥当性を評価した。本手法は, 教育評価, 古典的テスト理論, 項目応答理論の2つの理論的枠組みを基礎にしている。その結果、より大きなモデルでは過度に自信が持たれるが、温度スケーリングを調整した場合、応答分布はより人間らしくなることが示された。また, LLMは, 他者と比較して, 理解項目の読解において人間と相関する傾向にあることがわかった。しかし, 相関性はあまり強くないため, ゼロショット環境での教育評価のパイロット化にLSMを使用するべきではない。

関連論文リスト

How Far Can LLMs Improve from Experience? Measuring Test-Time Learning Ability in LLMs with Human Comparison [18.55932151761813]
我々は、テスト時間における経験に基づく、推論集約的なタスクのパフォーマンス向上能力であるテストタイム学習の評価を提唱する。モデル性能を限定的および累積的な経験条件下で比較し、4種類の経験表現を含む客観的評価フレームワークを提案する。以上の結果から,LSMは測定可能なテスト時間学習能力を示すが,累積的な経験下では改善は安定せず,人間よりも進行が遅いことが示唆された。
論文参考訳（メタデータ） (2025-06-17T12:13:56Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。 JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文参考訳（メタデータ） (2024-06-26T14:56:13Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis [0.27309692684728604]
我々はOpenAIのフラッグシップモデルであるGPT-3.5とGPT-4に、異なるペルソナを仮定し、パーソナ構成の標準化された範囲に対応するよう促す。その結果, GPT-4からの反応は, GPT-3.5ではなく, 汎用的なペルソナ記述を用いれば, 完全ではないものの, 有望な心理特性を示すことがわかった。
論文参考訳（メタデータ） (2024-05-12T10:52:15Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Investigating Large Language Models' Perception of Emotion Using Appraisal Theory [3.0902630634005797]
大規模言語モデル (LLM) は近年大きく進歩し、現在一般に使われている。本研究では,評価・対処理論のレンズによる感情知覚について検討する。 SCPQ を OpenAI, davinci-003, ChatGPT, GPT-4 の3つの最近の LLM に適用し,評価理論と人体データによる予測結果と比較した。
論文参考訳（メタデータ） (2023-10-03T16:34:47Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。