論文の概要: Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.17675v1
- Date: Tue, 25 Jun 2024 16:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:41:09.737848
- Title: Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models
- Title(参考訳): AI心理学の定量化 - 大規模言語モデルのための心理学的ベンチマーク
- Authors: Yuan Li, Yue Huang, Hongyi Wang, Xiangliang Zhang, James Zou, Lichao Sun,
- Abstract要約: 大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 57.518784855080334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional task-solving capabilities, increasingly adopting roles akin to human-like assistants. The broader integration of LLMs into society has sparked interest in whether they manifest psychological attributes, and whether these attributes are stable-inquiries that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a framework for investigating psychology in LLMs, including psychological dimension identification, assessment dataset curation, and assessment with results validation. Following this framework, we introduce a comprehensive psychometrics benchmark for LLMs that covers six psychological dimensions: personality, values, emotion, theory of mind, motivation, and intelligence. This benchmark includes thirteen datasets featuring diverse scenarios and item types. Our findings indicate that LLMs manifest a broad spectrum of psychological attributes. We also uncover discrepancies between LLMs' self-reported traits and their behaviors in real-world scenarios. This paper demonstrates a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.
- Abstract(参考訳): 大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
LLMの社会への広範な統合は、それらが心理的属性を示すかどうか、そしてそれらの属性が彼らの行動に対する理解を深める可能性のある安定した質問であるかどうかに関心を喚起した。
本稿では,心理学的側面の同定,評価データセットのキュレーション,結果検証による評価など,LCMにおける心理学研究の枠組みについて述べる。
この枠組みに従うと、パーソナリティ、価値観、感情、心の理論、モチベーション、知性の6つの心理学的側面を網羅する、LCMの総合的心理測定ベンチマークを導入する。
このベンチマークには、さまざまなシナリオとアイテムタイプを備えた13のデータセットが含まれている。
以上の結果から,LSMは幅広い心理的特性を示すことが示唆された。
また,LLMの自己報告特性と実世界のシナリオにおける行動の相違も明らかにした。
本稿では,LLMの心理学的評価を徹底的に実施し,AIおよび社会科学における信頼性評価と潜在的応用に関する知見を提供する。
関連論文リスト
- PhDGPT: Introducing a psychometric and linguistic dataset about how large language models perceive graduate students and professors in psychology [0.3749861135832073]
この研究は、PhDGPTを紹介している。PhDGPTは、PhD研究者と教授の機械心理学をカプセル化した、プロンプトフレームワークと合成データセットである。
データセットは756,000のデータポイントで構成され、15の学術イベントに300回の反復、生物学的ジェンダー2つ、キャリアレベル2つ、抑うつ、不安、ストレススケール42のユニークな項目応答(DASS-42)を数えている。
ネットワーク・サイコメトリックスと心理言語学的次元を組み合わせることで,人間とLLMデータの類似点と相違点を明らかにした。
論文 参考訳(メタデータ) (2024-11-06T20:04:20Z) - PsychoLex: Unveiling the Psychological Mind of Large Language Models [1.3518297878940662]
本稿では,大規模言語モデル(LLM)の開発と評価を通じて,心理学と人工知能の交わりについて考察する。
PsychoLex(サイコレックス)は、ペルシャ語と英語の両方の心理学的タスクにおけるLLMの能力を高めるために設計されたリソース群である。
本稿では,心理学的応用に特化して最適化された心理LexLLaMAモデルについて,汎用モデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T17:19:23Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review [4.147674289030404]
大規模言語モデル(LLM)は、人間の認知と行動の側面をシミュレートする可能性がある。
LLMは、文献レビュー、仮説生成、実験的なデザイン、実験的な主題、データ分析、学術的な執筆、心理学におけるピアレビューのための革新的なツールを提供する。
データプライバシ、心理的研究にLLMを使うことの倫理的意味、モデルの制限をより深く理解する必要がある、といった問題があります。
論文 参考訳(メタデータ) (2024-01-03T03:01:29Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。