論文の概要: Do Psychometric Tests Work for Large Language Models? Evaluation of Tests on Sexism, Racism, and Morality
- arxiv url: http://arxiv.org/abs/2510.11254v1
- Date: Mon, 13 Oct 2025 10:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.324617
- Title: Do Psychometric Tests Work for Large Language Models? Evaluation of Tests on Sexism, Racism, and Morality
- Title(参考訳): 大規模言語モデルのための心理測定テストは機能するのか? 性差別、ラシズム、道徳に関するテストの評価
- Authors: Jana Jung, Marlene Lutz, Indira Sen, Markus Strohmaier,
- Abstract要約: 大規模言語モデル(LLM)における心理的構成物の評価に心理学的検査がますます用いられるようになる
本研究では、セクシズム、人種差別、道徳という3つの構成要素に対する人間の心理測定検査の信頼性と妥当性を評価する。
心理測定テストのスコアは一致せず、ダウンストリームタスクにおけるモデル行動と負の相関関係にある場合もあり、生態学的妥当性は低い。
- 参考スコア(独自算出の注目度): 7.68863194266262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Psychometric tests are increasingly used to assess psychological constructs in large language models (LLMs). However, it remains unclear whether these tests -- originally developed for humans -- yield meaningful results when applied to LLMs. In this study, we systematically evaluate the reliability and validity of human psychometric tests for three constructs: sexism, racism, and morality. We find moderate reliability across multiple item and prompt variations. Validity is evaluated through both convergent (i.e., testing theory-based inter-test correlations) and ecological approaches (i.e., testing the alignment between tests scores and behavior in real-world downstream tasks). Crucially, we find that psychometric test scores do not align, and in some cases even negatively correlate with, model behavior in downstream tasks, indicating low ecological validity. Our results highlight that systematic evaluations of psychometric tests is essential before interpreting their scores. They also suggest that psychometric tests designed for humans cannot be applied directly to LLMs without adaptation.
- Abstract(参考訳): 心理測定テストは、大規模言語モデル(LLM)の心理的構造を評価するためにますます用いられる。
しかし、これらのテスト(もともと人間のために開発された)がLSMに適用された場合、有意義な結果をもたらすかどうかは不明だ。
本研究では,セクシズム,人種差別,道徳の3つの構成要素について,人間の心理測定検査の信頼性と妥当性を体系的に評価した。
複数の項目にまたがって適度な信頼性が得られ、変更が促される。
妥当性は収束性(理論に基づくテスト間相関のテスト)と生態学的アプローチ(実世界の下流タスクにおけるテストスコアと行動の整合性のテスト)によって評価される。
重要なことに、心理測定テストのスコアは一致せず、場合によっては下流のタスクにおけるモデル行動と負の相関が見られ、生態学的妥当性が低いことを示す。
以上の結果から, 心理測定テストの体系的評価は, スコアを解釈する上で不可欠であることが示唆された。
また、人間のために設計された心理測定テストは、適応なしに直接LSMに適用することはできないことを示唆している。
関連論文リスト
- Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead [2.809966405091883]
我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。
私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
論文 参考訳(メタデータ) (2025-07-30T18:14:35Z) - Do LLMs Give Psychometrically Plausible Responses in Educational Assessments? [24.31027563947265]
テスト受験者が教育評価の項目にどう答えるかを知ることは、テスト開発に不可欠である。
大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。
論文 参考訳(メタデータ) (2025-06-11T14:41:10Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [87.0481906768826]
評価パラダイムとして,標準ベンチマーク,インタラクティブゲーム,認知テストの3つを検討した。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
我々は,人間の能力評価に触発された新しい対話型ベンチマークと目標認知タスクの開発を提唱する。
論文 参考訳(メタデータ) (2025-02-20T08:36:58Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。