論文の概要: Evaluating Large Language Models with Psychometrics
- arxiv url: http://arxiv.org/abs/2406.17675v2
- Date: Fri, 17 Oct 2025 01:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.290266
- Title: Evaluating Large Language Models with Psychometrics
- Title(参考訳): 心理指標を用いた大規模言語モデルの評価
- Authors: Yuan Li, Yue Huang, Hongyi Wang, Ying Cheng, Xiangliang Zhang, James Zou, Lichao Sun,
- Abstract要約: 本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
- 参考スコア(独自算出の注目度): 59.821829073478376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities in solving various tasks, progressively evolving into general-purpose assistants. The increasing integration of LLMs into society has sparked interest in whether they exhibit psychological patterns, and whether these patterns remain consistent across different contexts -- questions that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a {comprehensive benchmark for quantifying psychological constructs of LLMs}, encompassing psychological dimension identification, assessment dataset design, and assessment with results validation. Our work identifies five key psychological constructs -- personality, values, emotional intelligence, theory of mind, and self-efficacy -- assessed through a suite of 13 datasets featuring diverse scenarios and item types. We uncover significant discrepancies between LLMs' self-reported traits and their response patterns in real-world scenarios, revealing complexities in their behaviors. Our findings also show that some preference-based tests, originally designed for humans, could not solicit reliable responses from LLMs. This paper offers a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクの解決において例外的な能力を示し、徐々に汎用アシスタントへと進化してきた。
LLMの社会への統合が進むにつれ、心理学的パターンの提示や、これらのパターンが様々な文脈で一貫しているかどうかという問題への関心が高まっている。心理学的指標から着想を得て、LLMの心理的構成要素を定量化するための「包括的ベンチマーク」を提案し、心理学的次元の識別、評価データセット設計、結果検証を含む。本研究は、個性、価値観、感情的知性、心の理論、自己効力性の5つの重要な心理的構成要素を、様々なシナリオとアイテムタイプを特徴とする13のデータセットで評価する。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
また、もともと人間向けに設計された嗜好ベースのテストでは、LSMからの信頼性の高い応答を要求できないことが判明した。
本稿では,LLMの心理学的評価を徹底的に行い,AIおよび社会科学における信頼性評価と潜在的応用に関する知見を提供する。
関連論文リスト
- SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (2025-04-30T06:09:40Z) - Evaluating Personality Traits in Large Language Models: Insights from Psychological Questionnaires [3.6001840369062386]
この研究は、多種多様なシナリオにおける大規模言語モデルに心理学的ツールを適用し、パーソナリティプロファイルを生成する。
以上の結果から, LLMは, 同一モデル群においても, 特徴, 特徴, 性格の異なる特徴を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T16:12:52Z) - PhDGPT: Introducing a psychometric and linguistic dataset about how large language models perceive graduate students and professors in psychology [0.3749861135832073]
この研究は、PhDGPTを紹介している。PhDGPTは、PhD研究者と教授の機械心理学をカプセル化した、プロンプトフレームワークと合成データセットである。
データセットは756,000のデータポイントで構成され、15の学術イベントに300回の反復、生物学的ジェンダー2つ、キャリアレベル2つ、抑うつ、不安、ストレススケール42のユニークな項目応答(DASS-42)を数えている。
ネットワーク・サイコメトリックスと心理言語学的次元を組み合わせることで,人間とLLMデータの類似点と相違点を明らかにした。
論文 参考訳(メタデータ) (2024-11-06T20:04:20Z) - PsychoLex: Unveiling the Psychological Mind of Large Language Models [1.3518297878940662]
本稿では,大規模言語モデル(LLM)の開発と評価を通じて,心理学と人工知能の交わりについて考察する。
PsychoLex(サイコレックス)は、ペルシャ語と英語の両方の心理学的タスクにおけるLLMの能力を高めるために設計されたリソース群である。
本稿では,心理学的応用に特化して最適化された心理LexLLaMAモデルについて,汎用モデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T17:19:23Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review [4.147674289030404]
大規模言語モデル(LLM)は、人間の認知と行動の側面をシミュレートする可能性がある。
LLMは、文献レビュー、仮説生成、実験的なデザイン、実験的な主題、データ分析、学術的な執筆、心理学におけるピアレビューのための革新的なツールを提供する。
データプライバシ、心理的研究にLLMを使うことの倫理的意味、モデルの制限をより深く理解する必要がある、といった問題があります。
論文 参考訳(メタデータ) (2024-01-03T03:01:29Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。